Я пишу приложение, в котором нам нужно регулярно отслеживать более 5000 веб-сайтов и заполнять БД определенным контентом, таким как автор, заголовок, дата, аннотация, контент и т. Д., Так как мы ищем очень конкретный иДля точного содержимого мы планируем использовать специально разработанные сценарии XPath для каждого типа сайта / страницы и использовать такие сценарии для управления анализатором.
Это приложение на основе Java.
Есть ли в Java готовая библиотека для этого?Мы хорошо разбираемся в JTidy, но он не делает то, что мы хотим.
Есть ли какой-нибудь лучший подход, который вы можете порекомендовать?
Обратите внимание: я прошел через тонны вопросов, связанных с парсингом html / XPath, и не нашел ничего, что отвечало бы на этот вопрос.
спасибо большое ..