Чтение сайта, созданного для чтения людьми, всегда является проблемой. Я делаю это уже несколько лет, и это никогда не было легко. Это всегда хорошая идея, чтобы искать данные, которые вам нужны в некоторых других, таких как XML или RSS.
Всегда имейте в виду, что макет сайта может измениться, и вам придется адаптировать свое приложение. Но главная проблема - найти нужную информацию на странице. Нам всегда нужно много строковых методов, таких как contains, left, mid, indexOf.
HTML - это своего рода XML, поэтому, возможно, XMLParser сработает. Но браузеры всегда немного более терпимы и будут принимать и отображать много страниц, которые плохо отформатированы.