Java Parser HTML с использованием простых методов String? - PullRequest
0 голосов
/ 22 февраля 2012

Это хорошая идея?Ну, я использовал другие сторонние библиотеки, такие как JSoup, и это прекрасно работает, но для этого проекта все по-другому.Стоит ли загружать и анализировать весь документ, если вы хотите получить только один элемент?Некоторые html-страницы тоже просты, поэтому я мог бы также использовать методы String.Причина в том, что проблема с памятью, и для загрузки документа также требуется некоторое время.При разборе XML я всегда использую SAX Parser, потому что он не загружает его в память и работает быстро.Могу ли я использовать то же самое в HTML-документах, или уже есть такой?Так что, если есть HTML-анализатор не из DOM, это тоже было бы здорово.

1 Ответ

1 голос
/ 22 февраля 2012

Если HTML является XML-совместимым (т.е. это XHTML), тогда вы можете использовать стандартный SAX-анализатор. Здесь вы можете найти список HTML-парсеров в Java на выбор: http://java -source.net / open-source / html-parsers . HotSax, вероятно, будет обрабатывать все ваши варианты использования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...