HTML Parser для извлечения текста из тела (в Java) - PullRequest
0 голосов
/ 16 апреля 2010

Я работаю над этим проектом, который требует от меня выполнения некоторых манипуляций с текстом из текста, который я получаю с веб-страниц. Теперь, первым шагом к этому было бы найти парсер, который извлек бы необходимый основной текст, игнорируя избыточную информацию. Я не уверен, как бы я это сделал, так как я очень плохо знаком с программированием. Я был бы очень признателен за любую помощь. Заранее спасибо

Ответы [ 2 ]

3 голосов
/ 22 октября 2012

Я нашел этот HTML-парсер очень полезным. Это также обеспечивает примерный пример. http://jericho.htmlparser.net/docs/index.html

1 голос
/ 16 февраля 2011

Я сейчас делаю это, используя HTMLParser, доступный на Sourceforge: http://sourceforge.net/projects/htmlparser/

Кажется очень простым и понятным, но, поскольку вы заявляете, что вы новичок в этом, вот пример с исходным кодом: http://kickjava.com/src/org/htmlparser/parserapplications/StringExtractor.java.htm

...