Как разобрать веб-страницу в памяти - PullRequest
0 голосов
/ 07 февраля 2012

Вот что я хочу сделать:

Мне нужно написать утилиту, которая будет запускаться из командной строки для извлечения некоторых данных с веб-страницы.Содержимое страницы динамически генерируется с использованием javascript (представьте jquery, который вызывает веб-сервис для получения списка элементов и отображает их на странице)

Моей первой мыслью было использование элемента управления WebBrowser для загрузки страницы.,Но для размещения веб-элемента управления необходим графический интерфейс, поэтому об этом не может быть и речи.

Кто-нибудь может подсказать, что еще можно попробовать?Есть ли библиотека, которая может анализировать веб-страницу без необходимости быть видимой?

Ответы [ 2 ]

0 голосов
/ 02 апреля 2012

Существуют различные способы синтаксического анализа веб-страницы, которые вы можете использовать «HTML Agility Pack», чтобы сделать то же самое.Есть еще один сайт, на котором вы найдете парсер, уже спроектированный для сайта: кодировщик черного пояса

0 голосов
/ 07 февраля 2012

Откройте Google Chrome Developer Tools (нажмите F12) и перейдите на вкладку сети.В левом нижнем углу есть небольшая кнопка с круговым значком (Сохранить журнал при навигации), на которую вы можете нажать.

Если вы сейчас перейдете на страницу, которую хотите захватить инструментом, Chrome запишет всеHTTP-запросы, сделанные браузером - включая любые XHR-запросы.

Вы сможете использовать это, чтобы выяснить, как формировать идентичные HTTP-запросы в вашем инструменте или скрипте для получения той же информации.

...