Я уже долго искал хорошее решение, но не могу найти ничего, что соответствует моим потребностям ...
Я хочу проанализировать файл HTML и отобразить его содержимое в таблице. Все почти как написание еще одного читателя RSS. Делать это, анализируя действительные XML-файлы, просто и понятно, используя NSXMLParser или TouchXML или libxml напрямую или какой-то другой XML-анализатор ... Но эти фреймворки либо работают только с XML и / или не работают с не аккуратным HTML. Сайт состоит из элементов div, включающих ссылки, которые включают изображения или абзацы, включая ссылки, изображения и т. Д., И т. Д. - просто обычный веб-сайт. Использование libxml в этом случае кажется слишком сложным.
Есть ли у кого-то больше опыта разбора грязных HTML-страниц? Какую (бесплатную) библиотеку / фреймворк вы использовали? У меня такое ощущение, что я просто здесь что-то упускаю. Разве не так сложно разобрать HTML-файлы или нет?
Я надеюсь, что вы можете указать мне правильное направление!