Java-библиотека для обнаружения элементов списка на веб-страницах - PullRequest
0 голосов
/ 26 августа 2010

Большинство современных веб-страниц содержат списки вещей или фрагменты HTML-шаблонов, которые многократно повторяются.

Например:

  1. Сообщения о состоянии Facebook на домашних страницах.
  2. Новости Digg / Hacker
  3. Домашняя страница StackOverflow

Есть ли библиотека Java для обнаружения таких списков.Это будет включать в себя некоторое количество шаблонов и интеллекта.Спасибо.

Ответы [ 2 ]

0 голосов
/ 31 декабря 2010

Возможно, вы захотите изучить термин «скребок» в Google.Точное извлечение данных с веб-страниц в общих чертах называется очисткой, в отличие от захвата всей страницы «сканированием».

0 голосов
/ 26 августа 2010

Между выражениями XPath и атрибутами «id» HTML-элемента вы сможете найти корень интересующих вас списков, и тогда больше XPath позволит вам выполнять их итерацию.

Если у вас еще нет XPath, я рекомендую использовать HtmlUnit. Да, он предназначен для тестирования, но он действительно хорошо работает как «безголовый» браузер и имеет отличную поддержку XPath для обхода DOM страницы.

...