У меня есть запись в блоге ( образец 1 , образец 2 ). Как лучше всего разбирать HTML и определять автора, заголовок, дату, содержание статьи , комментарии (отдельно). Весь другой контент должен быть пропущен.
Вы можете не получить все, что ищете, но я думаю, что Boilerpipe стоит посмотреть.
Предполагая, что ваш блог имеет RSS-канал, вы можете использовать SAX Parser Java для просмотра XML
http://download.oracle.com/javase/1.4.2/docs/api/javax/xml/parsers/SAXParser.html
Вот пример того, как кто-то анализирует RSS, используя SAX Parser
http://javabeanz.wordpress.com/2007/07/25/rss-parser-sax/