Что такое HtmlTokenizer? - PullRequest
       0

Что такое HtmlTokenizer?

1 голос
/ 23 марта 2011

Что на самом деле делает HtmlTokenizer?

Что это за утилита?

Как я могу использовать ее в приложении C #?

Ответы [ 3 ]

3 голосов
/ 23 марта 2011

Преобразует HTML-элементы в токены, например:

<div><b>Tekst!</b></div>

. Это можно преобразовать в нечто вроде этого:

TOKEN_DIV TOKEN_STRONG TOKEN_STRING TOKEN_END_STRONG TOKEN_END_DIV

. Таким образом, вы можете создать парсер, который будетразобрать документ.

1 голос
/ 23 марта 2011

Он анализирует html и предоставляет теги (а также их данные и атрибуты), используя интерфейс стиля слушателя, похожий на SAX для XML. Хотя я полагаю, что существует довольно много разных реализаций классов, называемых HTMLTokenize.

Вывод стиля слушателя работает, вызывая методы в слушателе, когда анализатор встречает определенные элементы, например, у вас может быть метод startTag (...) в слушателе, и всякий раз, когда анализатор встречает начало нового тега, он вызовет этот метод и передаст данные для найденного тега. Аналогичным образом, когда встречается конец тега, он вызывает вызывающий метод endTag (). Слушатель должен точно следить за тем, что и где происходит, поэтому часто простой синтаксический анализатор дерева DOM проще в использовании.

Если вы можете указать специфику режима, откуда происходит этот класс, более подробную информацию можно получить в ответе.
Кроме того, я не знаю ни о каких библиотеках классов C #, которые имеют этот класс, только Java ??

1 голос
/ 23 марта 2011

HTML-токенайзер просто разбивает поток текста на токены, где каждый токен является строкой. Обычно каждая строка представляет либо «текст», либо элемент HTML.

Вы можете использовать его в c #, как и любой другой класс.

...