Нужна помощь по веб пауку - PullRequest
3 голосов
/ 31 мая 2011

Я пишу очень простой веб-паук в java. Я столкнулся с одной проблемой: контент, загружаемый по одному и тому же URL, отличается от браузера. Например, попробуйте ниже URL.

http://www.google.co.in/search?sourceid=chrome&ie=UTF-8&q=web+spider#sclient=psy&hl=en&source=hp&q=web+spider&aq=f&aqi=&aql=&oq=web+spider&pbx=1&fp=d8e8e41d6d2bda33&biw=1366&bih=643

Если вы загрузите этот URL в браузере и через класс URL JAVA, содержимое будет другим. Это может быть из-за следующих причин.

  • Javascript может отправлять
    XMLHTTP-запросы и конкатенация результат для отображения окончательного HTML.
  • URL-перенаправления могут, наконец, сделать HTML.
  • Любые другие причины, о которых я не знаю.

Так есть ли способ, которым я симулирую браузер в моей java-программе. Существуют ли какие-либо сторонние библиотеки, которые загружают страницу аналогично тому, что делает браузер, и, наконец, возвращают контент. Любая помощь приветствуется.

1 Ответ

1 голос
/ 31 мая 2011

try htmlunit может эмулировать поведение браузера и обрабатывать javascript

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...