Я использовал HtmlAgilityPack в прошлом для анализа HTML в .Net, но мне не нравится тот факт, что он использует только модель DOM.
В больших документах и / или документах с большим уровнем вложенности возможно возникновение переполнения стека или исключений нехватки памяти. Также в целом модель синтаксического анализа на основе DOM использует значительно больше памяти, чем потоковый подход, как правило, потому что процессу, который хочет использовать HTML, может потребоваться доступ только к нескольким элементам за один раз.
Кто-нибудь знает приличный анализатор HTML для .Net, который позволяет вам анализировать HTML способом, аналогичным классу XmlReader
? то есть в потоковом режиме только вперед