Чтение данных таблицы HTML / HTML-тег - PullRequest
2 голосов
/ 23 мая 2010

У меня есть около 50 страниц html, которые содержат около 100 с лишним строк данных в каждой со всеми видами стилей CSS, я хочу прочитать html-файл и просто получить данные, такие как имя, возраст, класс, учитель , и сохранить его в базе данных, но я не могу прочитать теги HTML

например пространство, которое я держал, чтобы отобразить его здесь

<table class="table_100">
    <tr>
        <td class="col_1">
            <span class="txt_student">Gauri Singh</span><br>
            <span class="txt_bold">13</span><br>
            <span class="txt_bold">VIII</span><br>
        </td>
        <td class="col_2">
            <span class="txt_teacher">Praveen M</span><br>
            <span class="txt_bold">3494</span><br>
            <span class="txt_bold">3Star</span><br>
        </td>
        <td class="col_3">
        </td>
    </tr>
</table>

Ответы [ 2 ]

1 голос
/ 23 мая 2010

Для .NET вы можете попробовать Html Agility Pack Вы можете «преобразовать» HTML-страницы в XML-документы следующим образом:

        HtmlDocument doc = new HtmlDocument();
        doc.Load(@"..\..\your_page.htm");
        doc.OptionOutputAsXml = true;
        doc.Save("your_page.xml");

А затем просто проанализировать XML-документ.

0 голосов
/ 23 мая 2010

Использование Html Agility Pack . Он предоставляет интуитивно понятный и надежный API-интерфейс .net для синтаксического анализа и воспроизведения HTML-кода.

...