Каков наилучший способ обнаружить и извлечь содержание статьи / комментарии из статьи блога - PullRequest
0 голосов
/ 24 августа 2011

У меня есть запись в блоге ( образец 1 , образец 2 ). Как лучше всего разбирать HTML и определять автора, заголовок, дату, содержание статьи , комментарии (отдельно). Весь другой контент должен быть пропущен.

Ответы [ 2 ]

0 голосов
/ 30 мая 2013

Вы можете не получить все, что ищете, но я думаю, что Boilerpipe стоит посмотреть.

0 голосов
/ 24 августа 2011

Предполагая, что ваш блог имеет RSS-канал, вы можете использовать SAX Parser Java для просмотра XML

http://download.oracle.com/javase/1.4.2/docs/api/javax/xml/parsers/SAXParser.html

Вот пример того, как кто-то анализирует RSS, используя SAX Parser

http://javabeanz.wordpress.com/2007/07/25/rss-parser-sax/

...