Я ищу эффективный способ извлечения html-фрагмента из html-документа.Моя первая реализация этого использовала Html Agility Pack.Это казалось разумным способом решения этой проблемы, пока я не начал выполнять извлечение больших html-документов - производительность была очень плохой для чего-то такого тривиального (полагаю, из-за количества времени, которое требовалось для разбора всего документа).
Может кто-нибудь предложить более эффективные способы достижения моей цели?
Подводя итог:
Для моих целейhtml "фрагмент" определяется как все содержимое внутри тегов <body>
html документа
В идеале я хотел бы вернуть содержимое без изменений, если оно не былосодержит <html>
или <body>
(я предполагаю, что мне передали фрагмент HTML для начала)
У меня есть весь документ HTML, доступный в памяти (в виде строки)Я не буду транслировать его по требованию - поэтому потенциальному решению не нужно беспокоиться об этом.
Производительность имеет решающее значение, поэтому потенциальное решение должно учитывать это.
Пример ввода:
<html>
<head>
<title>blah</title>
</head>
<body>
<p>My content</p>
</body>
</html>
Желаемый вывод:
<p>My content</p>
Было бы приветствоваться решение на C # или VB.NET.