Нужна помощь в создании «робота», который извлекает данные из HTTP-запроса - PullRequest
0 голосов
/ 12 октября 2011

Я создаю веб-сайт на ASP.net и C #, один из его компонентов включает в себя вход на веб-сайт, на котором у пользователя есть учетная запись (например, компания сотовой связи) от имени пользователя. сайт и сохранить его в нашей базе данных.

Я думаю, что это действие называется "выскабливание".

Существуют ли какие-либо продукты, которые уже используются для интеграции с моим программным обеспечением?

Мне не нужно программное обеспечение, которое делает это, мне нужен какой-то SDK, который я могу интегрировать с моим кодом C #.

Спасибо

Коби

Ответы [ 3 ]

2 голосов
/ 12 октября 2011

Используйте HtmlAgilityPack для анализа HTML-кода, полученного из веб-запроса после входа в систему.

Смотрите здесь для входа: Вход на сайт, через C #

1 голос
/ 12 октября 2011

Я не нашел ни одного продукта, который бы все делал правильно.
Один из способов справиться с этим -
- делать запросы самостоятельно
- используйте http://htmlagilitypack.codeplex.com/ для извлечения важной информации из загруженного html
- сохранить извлеченную информацию самостоятельно

Дело в том, что в зависимости от контекста есть так много вещей, которые нужно настроить / настроить, что вам нужен очень большой продукт, и все же он не достигнет производительности / точности индивидуального решения:
а) многопоточное управление
б) правила извлечения
в) контроль стойкости
г) веб-паутинга (или как выбрать следующую ссылку для разбора)

0 голосов
/ 12 октября 2011

Проверьте запись Web Scraping Wikipedia .

Однако я бы сказал, поскольку то, что нам нужно получить с помощью веб-скребинга, зависит от конкретного приложения, в большинстве случаев может быть более эффективно вычистить все, что вам нужно, из потока веб-ответов.

...