Как сделать веб-сканер для всех сайтов электронной коммерции - PullRequest
0 голосов
/ 24 мая 2018

Я новичок в области терапии.Я хотел бы сделать свой веб-сканер для моего личного эксперимента, который бы сканировал весь Интернет и сохранял URL-адреса веб-сайтов электронной коммерции для моей базы данных. Я искал по всему Google и нашел этот и многие другие почти такие же.

Но есть start_urls = ['http://brickset.com/sets/year-2016'], который я хочу изменить и добавить весь Интернет. Возможно ли это?если да, пожалуйста, укажите мне правильный подход.

Заранее спасибо.

1 Ответ

0 голосов
/ 24 мая 2018

Итак, давайте подойдем к этой проблеме немного по-другому.На самом деле невозможно создать сканер, который может сканировать все сайты электронной коммерции и приносить вам результаты.

Это оставляет нам лучший вариант Search Engines.Скорее всего, вы можете сканировать любую поисковую систему с помощью product query и собирать ссылки, в которых указан продукт для продажи.

Вторая сложность, с которой вы столкнетесь, заключается в том, как определить разницу между e-commerce сайтами и other сайтами.В этом могут помочь такие инструменты, как DiffBot.

Это необходимо сделать в режиме реального времени, потому что, очевидно, вы не планируете создавать огромную базу данных обо всех продуктах на проиндексированных сайтах в Интернете..

...