Question

У меня есть требование взять текст из какого-то довольно грязного HTML. Допустим, мне нужен третий элемент списка из первого списка на странице. В li могут быть или не быть закрывающие теги, они могут быть в смешанных случаях, иметь классы и т. Д.

Мне было интересно, возможно ли в консольном приложении использовать класс (DOMDocument ???) для загрузки HTML-кода в DOM, который хотя бы несколько его дезинфицирует, а затем анализирует его там. *

Это похоже на то, что уже должно быть решено, но я не нашел ничего слишком уместного, кроме этого винтажного решения регулярных выражений http://www.vsj.co.uk/articles/display.asp?id=389

Буду признателен за любые мысли о том, является ли это хорошим подходом и правильными для изучения классами.

Tim Lloyd · Answer 1 · 22 января 2011

Пакет Html Agility можно использовать для работы с "грязным" HTML в режиме DOM.

Есть ли класс, который я могу использовать, чтобы извлечь элементы из грязного HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли класс, который я могу использовать, чтобы извлечь элементы из грязного HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов