Как мне исправить искаженный HTML с помощью C #? Отличным ответом будет пример HTML Agility Pack!
Я очищаю сайт (для законного использования). HTML-код сайта в порядке, но есть некоторые раздражающие проблемы.
Один из способов, которым я мог бы пойти, - это регулярные выражения. Я использовал Expression Web для анализа проблем и регулярных выражений, необходимых для их устранения. Поэтому одним из способов будет использование инструмента, такого как RegexBuddy , для генерации кода C # для этих регулярных выражений.
Однако рекомендуемым инструментом для обработки искаженного HTML в C # является HTML Agility Pack (HAP). Кроме того, я проанализировал только несколько страниц и боюсь, что на будущих страницах будут содержаться шаблоны, которые я еще не решил, и я не хотел бы входить в раздел «найди ошибки на следующих нескольких страницах и исправь их» бизнес. Так что, если у HAP уже есть надежное, всегда работающее решение, это было бы здорово. Проблема в том, что за исключением нескольких упоминаний здесь, в SO, я не смог найти никакой документации по использованию этого инструмента, за исключением файла справки объектного API.
Итак, прежде чем тратить $ и учиться на RegexBuddy (нет бесплатной ознакомительной версии) или сломать себе зубы на документации HAP API - есть ли простой способ сделать это? Пример HAP поможет ...: -)