Встроенный класс Regex или Parser.Как извлечь текст между тегами из HTML-файла? - PullRequest
0 голосов
/ 03 марта 2010

У меня есть HTML-файл, в котором содержится содержимое таблицы и другая информация в моем приложении c # .net.

Я хочу проанализировать содержимое таблицы только для некоторых столбцов. Затем я должен использовать парсер html или Заменить метод Regex в .net?

А если я использую парсер, то как использовать парсер? Будет ли парсер извлекать информацию, которая находится между тегами? Если да, то как использовать? Если возможно, покажите пример, потому что я новичок в парсере.

Если я использую Заменить метод класса Regex , то в этом методе как передать имя файла, для которого я хочу извлечь информацию?

Редактировать : Я хочу извлечь информацию из таблицы в HTML-файл. Для этого, как я могу использовать html agility parser? Какой тип кода я должен написать, чтобы использовать этот синтаксический анализатор?

Ответы [ 2 ]

4 голосов
/ 03 марта 2010

Вы только что задали почти идентичный вопрос и удалили его. Вот ответ, который я дал раньше:


Попробуйте HTML-пакет Agility Pack .

Вот пример :

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
 }
 doc.Save("file.htm");

Относительно вашего дополнительного вопроса о регулярном выражении: не используйте регулярное выражение для анализа HTML. Это не надежное решение. Приведенная выше библиотека может работать намного лучше.

1 голос
/ 03 марта 2010

HtmlAgilityPack ....

В следующий раз - поиск ответа раньше. Это точно дубликат.

Маленький учебник .

...