Question

Есть ли простой способ парсинга всей HTML-страницы и извлечения определенного раздела из кода этой страницы? то есть я получил этот URL из RSS-канала этого сайта : http://www.groundreport.com/Sports/Bret-Hart-says-Farewell-to-WWE_4/2918823

Что я хочу сделать, так это проанализировать эту ссылку и получить связанные изображения, теги и другую информацию с этой страницы. Есть ли библиотека Java или плагин Grails, который может легко анализировать HTML-код?

Ваше предложение о том, как подойти к этой задаче, будет высоко оценено.

Philippe · Answer 1 · 04 марта 2010

Вы можете попробовать библиотеку Tagsoup .
Вот пример здесь .

Dónal · Answer 2 · 04 марта 2010

Если HTML является правильно сформированным XML, вы можете использовать любой метод анализа Groovy XML. На практике вы, вероятно, не сможете этого гарантировать, поэтому лучше использовать HTML-парсер. В прошлом я использовал HTML-парсер Jericho (библиотека Java) и был очень доволен результатами.

wwwclaes · Answer 3 · 04 марта 2010

Я кратко посмотрел на WebHarvest более года назад, и это выглядело хорошо.

Чтение содержимого URL в Grails / Groovy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение содержимого URL в Grails / Groovy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов