Лучший способ вытащить весь innerText со страницы в JSON? - PullRequest
0 голосов
/ 25 мая 2019

Я перебираю серию простых HTML-страниц с кукловодом.Я хотел бы вытащить все или большую часть innerText html-элементов в теле и упорядоченно заполнить им файл json.

Существует несколько вариантов формата страниц.Мне интересно, есть ли подход, который бы пригодился для извлечения текста со страницы и его организации, который не так сильно зависит от формата страницы.

Я почти уверен, что могу написатьпрограмма, чтобы сказать, если формат 1 имеет место, перемещаться так, иначе, если формат 2 перемещаться так и так далее.Однако я ищу более элегантный способ вытащить весь внутренний текст со страницы в json, и при этом иметь возможность организовать его по его элементам.

1 Ответ

1 голос
/ 25 мая 2019

Я рекомендую treeWalker для получения всех textNodes

Я написал расширение, которое выполняет аналогичные действия для выделения

https://github.com/asyncb/selection-highlighter/blob/master/highlighter.js

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...