Question

Большинство современных веб-страниц содержат списки вещей или фрагменты HTML-шаблонов, которые многократно повторяются.

Например:

Сообщения о состоянии Facebook на домашних страницах.
Новости Digg / Hacker
Домашняя страница StackOverflow

Есть ли библиотека Java для обнаружения таких списков.Это будет включать в себя некоторое количество шаблонов и интеллекта.Спасибо.

Will · Answer 1 · 31 декабря 2010

Возможно, вы захотите изучить термин «скребок» в Google.Точное извлечение данных с веб-страниц в общих чертах называется очисткой, в отличие от захвата всей страницы «сканированием».

Rodney Gitzel · Answer 2 · 26 августа 2010

Между выражениями XPath и атрибутами «id» HTML-элемента вы сможете найти корень интересующих вас списков, и тогда больше XPath позволит вам выполнять их итерацию.

Если у вас еще нет XPath, я рекомендую использовать HtmlUnit. Да, он предназначен для тестирования, но он действительно хорошо работает как «безголовый» браузер и имеет отличную поддержку XPath для обхода DOM страницы.

Java-библиотека для обнаружения элементов списка на веб-страницах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Java-библиотека для обнаружения элементов списка на веб-страницах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы