Извлечь текст из URL - PullRequest
       2

Извлечь текст из URL

0 голосов
/ 29 сентября 2011

проблема в том, что мне нужно извлечь только текстовое содержимое данного URL.Я должен настаивать на том, что мне просто нужно текстовое содержание.в Интернете есть много методов, которые возвращают все содержимое веб-страницы без разделения текста.

Мне нужен код на языке c #.

спасибо за любой ответ

Ответы [ 2 ]

0 голосов
/ 29 сентября 2011

Что ж, вам нужно использовать некоторую технику синтаксического анализа, чтобы получить текст, например, вы можете использовать Xpath или регулярное выражение для получения текста с помощью URL-адреса Url

.
0 голосов
/ 29 сентября 2011

В HTML нет такой вещи, как «просто текст». Текст, который вы видите на веб-странице, отображается в соответствии с тем, как определена разметка.

Вы можете вручную обрезать все теги HTML между тегами <body></body>, тогда у вас будет что-то вроде всего текста на странице. Однако это может привести к ошибкам.

Большинство решений, которые вы найдете в Интернете, выберут регулярное выражение (что-то вроде Regex.Replace(str, "<(.|\n)*?>", string.Empty);), но если вы воспользуетесь этим, вы, вероятно, однажды выстрелите себе в ногу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...