Извлечение текста с помощью HTML-парсеров Java - PullRequest
0 голосов
/ 09 апреля 2010

Я хочу использовать html-парсер, который красиво и элегантно делает следующее

  1. Извлечение текста (это самое главное)
  2. Извлечение ссылок, мета-ключевые слова
  3. Реконструкция оригинального документа (дополнительная, но приятная функция)

Из моего расследования до сих пор Иерихон , кажется, подходит. Любые другие библиотеки с открытым исходным кодом, которые вы, ребята, порекомендовали бы?

Ответы [ 3 ]

2 голосов
/ 09 апреля 2010

Я недавно экспериментировал с HtmlCleaner и CyberNekoHtml. CyberNekoHtml - это анализатор DOM / SAX, который дает предсказуемые результаты. HtmlCleaner немного быстрее, но довольно часто не дает точных результатов.

Я бы порекомендовал CyberNekoHtml. CyberNekoHtml может делать все, что вы упомянули. Например, очень легко извлечь список всех элементов и их атрибутов. Если бы вы захотели восстановить страницу, можно было бы просмотреть дерево DOM, строящее каждый элемент обратно в HTML.

Здесь представлен список HTML-парсеров с открытым исходным кодом: http://java -source.net / с открытым исходным кодом / HTML-парсеры

1 голос
/ 08 февраля 2017

Я бы определенно пошел на JSoup.

Очень элегантная библиотека и делает именно то, что вам нужно.

См. Пример здесь

0 голосов
/ 09 апреля 2010

В итоге я использовал HtmlCleaner http://htmlcleaner.sourceforge.net/ для чего-то подобного. Он действительно прост в использовании и быстро справился с тем, что мне было нужно.

...