Я использовал сканер java.net для специально созданного сканера. Проблема заключается в динамически генерируемом контенте, например, в комментариях к блогу. Рассмотрим следующую страницу http://www.avc.com/a_vc/2010/09/contrarian-investing.html. Если вы сканируете страницу и получаете источник, вы не можете просмотреть все содержимое страницы. Причина, по которой мне нужен контент, заключается в том, что я выполняю некоторые вычисления плотности ключевых слов. Следовательно, мне нужно, чтобы мое приложение могло точно видеть, что будет видеть браузер. Есть предложения?
Я посмотрел на httpclient apache, однако, он такой же, как и у вышеупомянутого сканера, просто возвращает источник. Я думаю, что на этой конкретной странице есть фрагмент javascript, который возвращает комментарии из другого домена, поэтому я предполагаю, что мне нужно проанализировать источник после его загрузки, а затем получить текст. Любая помощь приветствуется.
спасибо
Sam