Java веб-скребок - PullRequest
       23

Java веб-скребок

0 голосов
/ 03 марта 2011

Какая библиотека лучше всего подходит для веб-скребка Java? Я знаю следующие варианты:

  1. Селен
  2. HtmlUnit
  3. Lobo browser

Мне нужно выбрать один вариант, чтобы построить скребок для одного масштабируемого проекта.

Ответы [ 3 ]

1 голос
/ 03 марта 2011

Мне недавно порекомендовали Web Harvest , и я подумал, что он хорошо работает "из коробки", за исключением некоторых проблем, связанных с кодами ответов HTTP 500 ...

1 голос
/ 03 марта 2011

Если вы соскребаете, зачем вам браузер? Простые вызовы cURL на страницу и получение ответа дадут вам то, что вам нужно для очистки.

Это поможет с масштабируемостью. Если вы хотите использовать браузер, выберите HTMLUnit, так как это снова поможет с масштабируемостью.

0 голосов
/ 02 марта 2012

Используйте jsoup , это прекрасно работает, чтобы получить ответ от URL, а затем использовать выражение XPath для анализа данных из ответа. Я реализовал это, и он прекрасно работает.

...