Я сканирую некоторые чтения из Интернета и сохраняю их как utf8 txt:
const result = await page.evaluate(() => {
const title = document.querySelector('#chapter-title').innerText;
const content = document.querySelector('#chapter-content').innerText;
return title + "\n\n" + content
})
fs.writeFileSync(`./results/chapter${chapter}.txt`, `${result}`, 'utf8');
Но некоторые символы (в основном акценты) в их оригинальной (HTML) форме отличаются от того, что они отображаются в браузере, и портят мое приложение для чтения.
Ниже приведен скриншот того же текста: первая строка - результат сканирования, вторая строка - открытие страницы в браузере и выбор + копирование текста вручную:
Кажется, браузеры как-то разумно «исправили» этот текст и превратили его в символ, доступный в шрифте.
Поскольку я точно не знаю, что произошло, мой поискне может привести к какому-либо результату.
Что случилось, и могу ли я отформатировать просканированный текст в читаемую форму?