Мой совет - использовать анализатор HTML с открытым исходным кодом, такой как HTMLCleaner - http://htmlcleaner.sourceforge.net/
Вы можете использовать HTMLCleaner (или аналогичный) для создания представления DOM веб-страницы, а затем использовать его для извлечения любой информации из веб-страниц, которую вы хотите.
Процесс выглядит примерно так:
URL url = new URL("website you want to load");
HTMLCleaner h = new HTMLCleaner();
TagNode HtmlNode = h.clean(url.openStream());
//perform queries on the DOM to extract information