Question

Я хочу использовать html-парсер, который красиво и элегантно делает следующее

Извлечение текста (это самое главное)
Извлечение ссылок, мета-ключевые слова
Реконструкция оригинального документа (дополнительная, но приятная функция)

Из моего расследования до сих пор Иерихон , кажется, подходит. Любые другие библиотеки с открытым исходным кодом, которые вы, ребята, порекомендовали бы?

Finbarr · Answer 1 · 09 апреля 2010

Я недавно экспериментировал с HtmlCleaner и CyberNekoHtml. CyberNekoHtml - это анализатор DOM / SAX, который дает предсказуемые результаты. HtmlCleaner немного быстрее, но довольно часто не дает точных результатов.

Я бы порекомендовал CyberNekoHtml. CyberNekoHtml может делать все, что вы упомянули. Например, очень легко извлечь список всех элементов и их атрибутов. Если бы вы захотели восстановить страницу, можно было бы просмотреть дерево DOM, строящее каждый элемент обратно в HTML.

Здесь представлен список HTML-парсеров с открытым исходным кодом: http://java -source.net / с открытым исходным кодом / HTML-парсеры

Vin Chenzo · Answer 2 · 08 февраля 2017

Я бы определенно пошел на JSoup.

Очень элегантная библиотека и делает именно то, что вам нужно.

См. Пример здесь

William · Answer 3 · 09 апреля 2010

В итоге я использовал HtmlCleaner http://htmlcleaner.sourceforge.net/ для чего-то подобного. Он действительно прост в использовании и быстро справился с тем, что мне было нужно.

Извлечение текста с помощью HTML-парсеров Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение текста с помощью HTML-парсеров Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы