Я пытаюсь извлечь текст, который на самом деле должен быть прочитан людьми, из epub (очень похоже на html). До сих пор мне удавалось избавиться от нескольких пробелов и скрытых символов, таких как разрывы строк и т. Д. Я только началработая над тегами стиля (не уверен, что еще нужно решить), когда я понял, что кто-то, вероятно, уже сделал это лучше, чем я. Есть ли библиотека, которую я мог бы использовать?
let dom = new DOMParser().parseFromString(string, "text/xml")
.documentElement;
let styles = dom.getElementsByTagName("style");
text = dom.textContent
.replace(/[\n\r]+|[\s]{2,}/g, " ") //Get rid of hidden characters
.replace(/ {1,}/g, " ") // multiple spaces should be just one.
.split(" "); //make array;
console.log(text);
});