Как скопировать все данные из документа HTML и сохранить их в строку, используя C # - PullRequest
1 голос
/ 21 октября 2010

Мне нужно создать индекс данных HTML-страниц, предоставляемых службе, по сути захватывая весь текст на них и помещая их в строку, чтобы перейти в систему хранения.

Если бы это было на основе графического интерфейса, япросто Ctrl + A на HTML-странице, скопируйте его, затем перейдите в Блокнот и Ctrl + V.Simples.Если я смогу сделать это с помощью старой доброй точки n 'click, то, безусловно, должен быть способ сделать это программно, но я изо всех сил пытаюсь найти что-нибудь полезное.

Документы HTML, о которых идет речь, загружаются длярендеринг в настоящее время с использованием класса System.Windows.Controls.WebBrowser, так что мне интересно, возможно ли каким-то образом получить данные оттуда?

Я собираюсь продолжать охоту, но любые указатели будут очень признательны.

Примечание. Мы не хотим получить исходный код HTML, а также не будем разбирать весь исходный код, чтобы получить текст, если только нам это не нужно.

Ответы [ 2 ]

1 голос
/ 21 октября 2010

Если я правильно понимаю вашу проблему, вам потребуется немного поработать, чтобы получить данные.

WebBrowser browser=new WebBrowser();  // This is what you have
HtmlDocument doc = browser.Document;  // This gives you the browser contents
String content = 
    (((mshtml.HTMLDocumentClass)(doc.DomDocument)).documentElement).innerText;

Последняя строка отображает отображаемое содержимое в браузере.

0 голосов
/ 21 октября 2010

Это , похоже, может быть весьма полезным.

...