Чтение содержимого URL в Grails / Groovy - PullRequest
0 голосов
/ 04 марта 2010

Есть ли простой способ парсинга всей HTML-страницы и извлечения определенного раздела из кода этой страницы? то есть я получил этот URL из RSS-канала этого сайта : http://www.groundreport.com/Sports/Bret-Hart-says-Farewell-to-WWE_4/2918823

Что я хочу сделать, так это проанализировать эту ссылку и получить связанные изображения, теги и другую информацию с этой страницы. Есть ли библиотека Java или плагин Grails, который может легко анализировать HTML-код?

Ваше предложение о том, как подойти к этой задаче, будет высоко оценено.

Ответы [ 3 ]

1 голос
/ 04 марта 2010

Вы можете попробовать библиотеку Tagsoup .
Вот пример здесь .

0 голосов
/ 04 марта 2010

Если HTML является правильно сформированным XML, вы можете использовать любой метод анализа Groovy XML. На практике вы, вероятно, не сможете этого гарантировать, поэтому лучше использовать HTML-парсер. В прошлом я использовал HTML-парсер Jericho (библиотека Java) и был очень доволен результатами.

0 голосов
/ 04 марта 2010

Я кратко посмотрел на WebHarvest более года назад, и это выглядело хорошо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...