Очистка сайтов электронной коммерции и объединение одних и тех же продуктов - PullRequest
1 голос
/ 28 мая 2019

Я пытаюсь узнать о веб-очистке, и в качестве приложения, которое я рассчитывал, я построю агрегатор, который сканирует розничные продавцы по определенным продуктам и устанавливает сравнение цен для одного и того же продукта из разных розничных продавцов.

Когда я начал это понимать, я точно понял, насколько велика эта задача.

Во-первых, мне нужно сканировать сайты, которые имеют различные форматы не только для их DOM-структур, но также немного отличающиеся названия для одних и тех же продуктов и форматы для цен на товары и цены на товары в продаже.

Во-вторых, после того, как я каким-то образом декодировал DOM для x количества сайтов (сделать это для одного или двух легко, но я хочу сделать сканер масштабируемым!) И извлек данные для различных элементов.Мне нужно иметь возможность сравнивать различные названия одних и тех же продуктов, чтобы я мог сравнивать разные цены (конвертировать их в одну и ту же валюту, проверять, является ли возвращенная цена оригинальной ценой / ценой продажи и т. Д.) Между продавцами.

Я пытаюсь написать свои сканеры, используя Scrapy, но может кто-нибудь порекомендовать подход к тому, как адаптировать сканер для различных розничных продавцов, и если есть какие-либо библиотеки / подходы, которые бы хорошо работали для второй проблемы сравнениякак (в отличие) предметы?

1 Ответ

0 голосов
/ 02 июня 2019

Для сравнения вы можете преобразовать строки названий продуктов в списки, сравнить их и установить пороговое значение, чтобы определить, являются ли два продукта одинаковыми или нет.

...