Есть ли класс, который я могу использовать, чтобы извлечь элементы из грязного HTML - PullRequest
1 голос
/ 22 января 2011

У меня есть требование взять текст из какого-то довольно грязного HTML. Допустим, мне нужен третий элемент списка из первого списка на странице. В li могут быть или не быть закрывающие теги, они могут быть в смешанных случаях, иметь классы и т. Д.

Мне было интересно, возможно ли в консольном приложении использовать класс (DOMDocument ???) для загрузки HTML-кода в DOM, который хотя бы несколько его дезинфицирует, а затем анализирует его там. *

Это похоже на то, что уже должно быть решено, но я не нашел ничего слишком уместного, кроме этого винтажного решения регулярных выражений http://www.vsj.co.uk/articles/display.asp?id=389

Буду признателен за любые мысли о том, является ли это хорошим подходом и правильными для изучения классами.

1 Ответ

4 голосов
/ 22 января 2011

Пакет Html Agility можно использовать для работы с "грязным" HTML в режиме DOM.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...