Я использую htmlagilitypack & xpath.
Как я могу определить непостоянство в html.Например:
<table><tr><td>
<b>Car1</b><span>Color123</span>
<bCar2</b><span>Color333</span>
<b>Car3</b><span>Color221</span>
<b>Car4 <span>Color224</span>
<b>Car5</b><span>Color621</span>
</table></tr></td>
Car2 и Car4 жирный шрифт разбиты.
Проблема в том, что я использую root.SelectNodes ("// b [1]") [Index], и он пропускает индекс position2 (Car2) и ставит его на место Car3, а я даже не знаю, чтотакое случилось, если я не проверяю результаты вручную.По крайней мере, мне нужно иметь «пустую» позицию2 (Car2) и правильную позицию3 (Car3).
Пакет HtmlAgility не может определить и исправить это автоматически.doc.ParseErrors не может идентифицировать это.
Можете ли вы предложить некоторую комбинацию функций XPath, таких как Substring, Boolean, Concat, Number и т. Д.?Я не достаточно хорош в XPath, но я чувствую, что эти функции могут помочь в выявлении несоответствия.
ps HTML Tidy библиотека не может это исправить.Иногда он решает, что:
<b>Car4 <span>Color224</span></b>
Что не является правильным исправлением.