Похоже, вы хотите получить веб-страницы и проанализировать их для извлечения значимых данных? Я бы предложил что-то вроде TagSoup (для Java), которое запускает красивые события SAX, которые вы можете использовать напрямую, или с использованием XML-модуля по вашему выбору (raw DOM, JDOM, dom4j, XOM и т. Д. ... ). На странице TagSoup также приведен список ссылок на другие языки, такие как Beautiful Soup для Python, Rubyful Soup для Ruby и другие.
Оттуда я бы предложил использовать что-то вроде XPath для извлечения нужных вам бит данных. Другим вариантом будет XSLT для преобразования HTML в какой-то унифицированный формат, которым вы можете более легко манипулировать.