C # HTML пакет ловкости - PullRequest
       21

C # HTML пакет ловкости

3 голосов
/ 26 мая 2011

Мы переводим веб-сайт электронной коммерции на новую платформу, и поскольку все их страницы являются статическими html, и они не имеют всей информации о своих продуктах в базе данных, мы должны очистить их текущий веб-сайт для описания продуктов.

Вот одна из страниц: http://www.cabinplace.com/accrugsbathblackbear.htm

Как лучше всего было получить описание в строку?Должен ли я использовать пакет гибкости HTML?и если так, как это будет сделано?так как я новичок в html agility pack и xhtml в целом.

Спасибо

1 Ответ

1 голос
/ 26 мая 2011

HTML Agility Pack - хорошая библиотека для такой работы.

Вы не указали, структурировано ли все таким образом, или вы уже получилитип фрагмента, который вы разместили в файлах HTML, поэтому советовать его сложно.

В общем, если все страницы структурированы одинаково, я бы использовал выражение XPath для извлечения абзаца и выбора innerHtml или innerText с каждой страницы.

Что-то вроде следующего:

var description = htmlDoc.SelectNodes("p[@class='content_txt']")[0].innerText;
...