Какие-нибудь хорошие HTML-парсеры Java? - PullRequest
0 голосов
/ 27 ноября 2009

Я использовал Cobra до сих пор из-за того, как легко это было, но, к сожалению, у него были некоторые проблемы с несколькими тестами. Кто-нибудь предлагает проверенную и проверенную библиотеку?

Я безуспешно пробовал встроенную Cobra и HTMLCleaner.

Ответы [ 5 ]

4 голосов
/ 27 ноября 2009

TagSoup действительно отлично подходит для работы с дерьмовым HTML / XHTML.

Иерихон NekoHTML ) также хороши для анализа недопустимого HTML.

TagSoup и Jericho: проверено и опробовано. NekoHTML: обратная связь от надежного источника.

1 голос
/ 28 ноября 2009

Я предлагаю Парсер Validator.nu , основанный на алгоритме парсинга HTML5. (В настоящее время Mozilla заменяет свой собственный анализатор HTML).

1 голос
/ 28 ноября 2009

[Отвечая на заголовок - общий вопрос и комментарии не состоят]

JTidy (http://jtidy.sourceforge.net/) - это порт HTMLTidy Дейва Раггетта. Это очень полезно, хотя я думаю, что разработка могла замедлиться / прекратиться.

1 голос
/ 27 ноября 2009

Mozilla HTML Parser выглядит довольно интересно. По определению, он должен быть таким же хорошим, как и сам движок Gecko, который, вероятно, удовлетворит ваши потребности.

1 голос
/ 27 ноября 2009

Взгляните на Saxon (нет, я не связан с продуктом, просто довольный пользователь).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...