Я пишу очень простой веб-паук в java. Я столкнулся с одной проблемой: контент, загружаемый по одному и тому же URL, отличается от браузера. Например, попробуйте ниже URL.
http://www.google.co.in/search?sourceid=chrome&ie=UTF-8&q=web+spider#sclient=psy&hl=en&source=hp&q=web+spider&aq=f&aqi=&aql=&oq=web+spider&pbx=1&fp=d8e8e41d6d2bda33&biw=1366&bih=643
Если вы загрузите этот URL в браузере и через класс URL JAVA, содержимое будет другим. Это может быть из-за следующих причин.
- Javascript может отправлять
XMLHTTP-запросы и конкатенация
результат для отображения окончательного HTML.
- URL-перенаправления могут, наконец, сделать
HTML.
- Любые другие причины, о которых я не знаю.
Так есть ли способ, которым я симулирую браузер в моей java-программе. Существуют ли какие-либо сторонние библиотеки, которые загружают страницу аналогично тому, что делает браузер, и, наконец, возвращают контент. Любая помощь приветствуется.