Я пытаюсь загрузить и разобрать HTML в Adobe Air. Основная цель - извлечь заголовок, метатеги и ссылки. Я пробовал HTMLLoader, но я получаю всевозможные ошибки, в основном непонятные исключения javascript.
Я также попытался загрузить html-контент напрямую (используя URLLoader) и вставить текст в HTMLLoader (используя loadString (...)), но получил ту же ошибку. Последним средством было попытаться загрузить текст в xml, а затем использовать запросы E4X или xpath, не повезло, потому что HTML не очень хорошо сформирован.
Мои вопросы:
- Есть ли простой и надежный (сценарий действия / эфир) компонент DOM там (мне не нужно отображать страницу, и безголовый режим подойдет)?
- Есть ли какая-нибудь библиотека для преобразования (дрянного) HTML в правильно сформированный XML, чтобы я мог использовать xpath / E4X
- Любые другие предложения о том, как это сделать?
ТНХ