Jsoup - пытается извлечь количество комментариев с веб-страницы - PullRequest
0 голосов
/ 01 августа 2011

Я пытаюсь извлечь общее количество комментариев с веб-страницы с помощью Jsoup. Например, вот страница (CNN): http://edition.cnn.com/2011/POLITICS/07/31/debt.talks/index.html?hpt=T1

Я вижу, что идентификатор класса - cnn_strycmtsndff, но не могу найти нужную команду для его извлечения.

Может кто-нибудь помочь?

Спасибо

1 Ответ

1 голос
/ 14 августа 2011

К сожалению, я не думаю, что Jsoup собирается сократить это. Если вы используете инструменты разработчика Chrome, вы можете четко выделить HTML-код, используемый для представления раздела «(##### Комментарии)», но если вы просто просматриваете источник, никакой этой информации там нет. Похоже, они используют Javascript для динамического встраивания информации в страницу.

Вот что вы видите в «View Source»:

<div id="disqus_thread"></div><script type="text/javascript" src="http://cnn.disqus.com/embed.js"></script>

Так что Jsoup никогда не сможет увидеть элементы с информацией комментария.

...