BeautifulSoup и ASP.NET/C# - PullRequest
       7

BeautifulSoup и ASP.NET/C#

8 голосов
/ 29 июля 2010

Кто-нибудь интегрировал BeautifulSoup с ASP.NET/C# (возможно, с использованием IronPython или иным образом)?Существует ли альтернатива BeautifulSoup или порт, который прекрасно работает с ASP.NET/C#

Цель планирования использования библиотеки - извлечь читаемый текст из любогослучайный URL.

Спасибо

Ответы [ 3 ]

12 голосов
/ 29 июля 2010

Html Agility Pack - аналогичный проект, но для C # и .NET


РЕДАКТИРОВАТЬ:

Чтобы извлечь весь читаемый текст:

document.DocumentNode.InnerText

Обратите внимание, что при этом будет возвращено текстовое содержимое тегов <script>.

Чтобы исправить это, вы можете удалить все теги <script>, например:

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
    script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
    style.Remove();

(Кредит: SLaks )

2 голосов
/ 06 октября 2013

Вы можете попробовать это, хотя в настоящее время есть несколько ошибок:

http://nsoup.codeplex.com/

0 голосов
/ 04 июля 2013

Я знаю, что это довольно старо, но я решил опубликовать это для дальнейшего использования. Я наткнулся на это в поисках аналогичного решения.

Я нашел библиотеку, основанную на Html Agility Pack, которая называется scrapysharp

Я использовал его так же, как и BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home

...