Какие данные вы пытаетесь извлечь с веб-сайтов? Какие сайты? и т. д. Было бы полезно немного подробнее рассказать о вашей идее / проекте
Недавно у меня возникла необходимость изучить и попробовать несколько html-парсеров, чтобы получить нужные мне данные в более консолидированном формате.
Я попробовал JTidy (http://jtidy.sourceforge.net/) и заглянул в Web-Harvest (http://web -harvest.sourceforge.net / ). JTidy не вполне сделал бы то, что я хотел, и Web- Урожай был излишним.
В конечном итоге я остановился на использовании Java + htmlparser (http://htmlparser.sourceforge.net/)
Потребовалось очень мало времени на разработку, чтобы получить то, что мне было нужно, и htmlparser позволяет вам формировать «фильтры», которые ищут конкретные вещи в DOM.