парсинг HTML с использованием специально разработанных специфических сценариев xpath для каждого сайта в Java - PullRequest
0 голосов
/ 06 сентября 2011

Я пишу приложение, в котором нам нужно регулярно отслеживать более 5000 веб-сайтов и заполнять БД определенным контентом, таким как автор, заголовок, дата, аннотация, контент и т. Д., Так как мы ищем очень конкретный иДля точного содержимого мы планируем использовать специально разработанные сценарии XPath для каждого типа сайта / страницы и использовать такие сценарии для управления анализатором.

Это приложение на основе Java.

Есть ли в Java готовая библиотека для этого?Мы хорошо разбираемся в JTidy, но он не делает то, что мы хотим.

Есть ли какой-нибудь лучший подход, который вы можете порекомендовать?

Обратите внимание: я прошел через тонны вопросов, связанных с парсингом html / XPath, и не нашел ничего, что отвечало бы на этот вопрос.

спасибо большое ..

1 Ответ

0 голосов
/ 08 сентября 2011

jsoup может выполнять синтаксический анализ и имеет синтаксис селектора (аналогично jQuery, поэтому, если вы знаете, что летите), чтобы легко находить узлы.

Если вы хотите что-то сделать для мониторинга и загрузки HTML, я бы использовал HttpClient .

...