Написание программы на C #, которая сканирует веб-сайт электронной коммерции и извлекает из них фотографии продуктов + цены + описание - PullRequest
3 голосов
/ 06 февраля 2009

Я разрабатываю поисковую систему электронной коммерции, которая позволяет вам искать товары на многих сайтах электронной коммерции.

Как мне подойти к делу?

Мне нужно приложение, которое сможет сканировать веб-сайты, анализировать их HTML и определять, какие изображения на веб-сайте являются изображениями продуктов, описаниями продуктов и ценами на них.

Был бы рад услышать любую идею, например.

Заранее спасибо.

редактирование: Мой вопрос не в том, как получить HTML-код с веб-сайтов (это называется очисткой экрана), а в том, как разобрать эту информацию и понять, какой из html содержит фактические данные, которые я ищу, а какие нет.

Ответы [ 2 ]

2 голосов
/ 06 февраля 2009

Вы можете найти эту тему полезной в вашем квесте. Я изложил основные шаги там. Вот ссылка на все вопросы, помеченные как " Screen-scraping " на SO. Кроме того, много материалов в Интернете - Google .

1 голос
/ 06 февраля 2009

У большинства сайтов, которые вы хотите удалить (точнее, веб-просмотр ), есть партнерские API для сделок типа "посредник". Для вас, чтобы обойти это с помощью очистки экрана, вы быстро обнаружите, что ваш IP заблокирован их серверами трафика, и потенциально поставит вас в правовую ситуацию.

В лучшем случае этически сомнительно.

...