HTML-код проанализированной страницы - PullRequest
0 голосов
/ 04 октября 2010

Я использую движок разбора Cobra и хочу получить HTML-код уже проанализированной страницы (например, после выполнения javascripts).Возможно ли это сделать?При необходимости Cobra может быть заменен другим java веб-парсером с открытым исходным кодом.

1 Ответ

2 голосов
/ 04 октября 2010

Ух ты, Кобра на самом деле, кажется, делает это: Пример использования

Это фактически дает вам дерево HTML DOM-узлов. Вы можете использовать HTMLWriter , чтобы получить HTML-текст, если хотите, но если вы заинтересованы в какой-то определенной его части, используйте XPath, это намного чище, чем поиск в HTML-строке. *

...