Синтаксический анализатор использует libxml
для извлечения элементов, но эта страница интенсивно использует html5, пропускает определенные закрывающие теги и т. Д. Это не совсем строгий XML, поэтому он пытается "исправить ошибки", угадывая, где закрыть отсутствующиетеги, возвращающие неверные результаты.
Вам нужен анализатор с поддержкой html5, такой как HTML5DOMDocument
, который расширяет DOMDocument
и должен иметь в основном тот же интерфейс.