Мне нужно проанализировать веб-сайт с множеством вложенных <div>
.Я попытался с помощью XML::Simple
получить красивую древовидную структуру, но синтаксический анализ все время терпит неудачу, потому что, кажется, где-то два или три не закрыты <p>
.Я попробовал HTML::Parser
, но это позволяет мне определить только некоторые функции-обработчики, которые дают мне правильные теги, но не их вложенные элементы.
Есть способ получить XML::Simple
, принять недопустимый XML или HTML::Parser
дать мне удобную древовидную структуру?