Я перебираю серию простых HTML-страниц с кукловодом.Я хотел бы вытащить все или большую часть innerText html-элементов в теле и упорядоченно заполнить им файл json.
Существует несколько вариантов формата страниц.Мне интересно, есть ли подход, который бы пригодился для извлечения текста со страницы и его организации, который не так сильно зависит от формата страницы.
Я почти уверен, что могу написатьпрограмма, чтобы сказать, если формат 1 имеет место, перемещаться так, иначе, если формат 2 перемещаться так и так далее.Однако я ищу более элегантный способ вытащить весь внутренний текст со страницы в json, и при этом иметь возможность организовать его по его элементам.