У меня есть требование взять текст из какого-то довольно грязного HTML. Допустим, мне нужен третий элемент списка из первого списка на странице. В li могут быть или не быть закрывающие теги, они могут быть в смешанных случаях, иметь классы и т. Д.
Мне было интересно, возможно ли в консольном приложении использовать класс (DOMDocument ???) для загрузки HTML-кода в DOM, который хотя бы несколько его дезинфицирует, а затем анализирует его там. *
Это похоже на то, что уже должно быть решено, но я не нашел ничего слишком уместного, кроме этого винтажного решения регулярных выражений http://www.vsj.co.uk/articles/display.asp?id=389
Буду признателен за любые мысли о том, является ли это хорошим подходом и правильными для изучения классами.