Question

Мне нужно проанализировать веб-сайт с множеством вложенных <div>.Я попытался с помощью XML::Simple получить красивую древовидную структуру, но синтаксический анализ все время терпит неудачу, потому что, кажется, где-то два или три не закрыты <p>.Я попробовал HTML::Parser, но это позволяет мне определить только некоторые функции-обработчики, которые дают мне правильные теги, но не их вложенные элементы.

Есть способ получить XML::Simple, принять недопустимый XML или HTML::Parser дать мне удобную древовидную структуру?

reinierpost · Answer 1 · 07 марта 2011

Альтернативой чему-либо, основанному на HTML :: TreeBuilder , является XML :: LibXML-> load_html (...) .

bvr · Answer 2 · 07 марта 2011

HTML :: TreeBuilder создает красивые деревья и предоставляет множество удобных методов для его обхода.

ikegami · Answer 3 · 08 марта 2011

Но действительно ли это HTML? Если это так, XML :: LibXML сделает изумительную работу, если вы используете функции парсинга HTML. Это молниеносно и обеспечивает отличный интерфейс. Он даже должен иметь возможность обрабатывать некоторые плохие HTML с помощью опции recover.

В качестве альтернативы, HTML :: Parser (часто используется через HTML :: TreeBuilder или HTML :: TreeBuilder :: XPath ) известен для обработки плохого HTML , Хотя это будет не так быстро.

Разбор HTML, который не является допустимым XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор HTML, который не является допустимым XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов