Получаете текст, понятный человеку, из XML / HTML? - PullRequest
0 голосов
/ 27 октября 2019

Я пытаюсь извлечь текст, который на самом деле должен быть прочитан людьми, из epub (очень похоже на html). До сих пор мне удавалось избавиться от нескольких пробелов и скрытых символов, таких как разрывы строк и т. Д. Я только началработая над тегами стиля (не уверен, что еще нужно решить), когда я понял, что кто-то, вероятно, уже сделал это лучше, чем я. Есть ли библиотека, которую я мог бы использовать?

let dom = new DOMParser().parseFromString(string, "text/xml")
    .documentElement;
let styles = dom.getElementsByTagName("style");

text = dom.textContent
    .replace(/[\n\r]+|[\s]{2,}/g, " ") //Get rid of hidden characters
    .replace(/ {1,}/g, " ") // multiple spaces should be just one.
    .split(" "); //make array;

    console.log(text);
});
...