Plug: Взгляните на jsoup (библиотека HTML с открытым исходным кодом, которую я только что выпустил).Предоставляет CSS и jquery-подобный синтаксис для получения данных, в дополнение к традиционным методам DOM.
Document doc = Jsoup.parse(html);
Elements links = doc.select("a[href]");