java html парсер не читает всю страницу - PullRequest
0 голосов
/ 13 октября 2010

Я разбираю html-страницы для получения конкретной информации, но есть некоторые страницы, на которых я не могу получить всю информацию, отображаемую на веб-странице, например, в этой странице

Я не могу получить информацию об отзывах. Кстати, если вы видите исходный код страницы, там очень много пустых строк, и информация об обзорах не отображается.

Ты знаешь почему? Какая библиотека для чтения страниц этого типа?

Спасибо

1 Ответ

1 голос
/ 14 октября 2010

Готов поспорить, они используют какой-то javascript для загрузки информации об обзоре.Чтобы получить доступ к этой информации, вам нужно каким-то образом либо имитировать запрос, либо оценить javascript, а затем проанализировать полученную страницу.Я бы предложил изучить их javascript и имитировать запрос, который они используют для загрузки информации о рецензировании, поскольку это будет намного проще, чем пытаться оценить javascript в вашем коде.

...