Я пытаюсь узнать о веб-очистке, и в качестве приложения, которое я рассчитывал, я построю агрегатор, который сканирует розничные продавцы по определенным продуктам и устанавливает сравнение цен для одного и того же продукта из разных розничных продавцов.
Когда я начал это понимать, я точно понял, насколько велика эта задача.
Во-первых, мне нужно сканировать сайты, которые имеют различные форматы не только для их DOM-структур, но также немного отличающиеся названия для одних и тех же продуктов и форматы для цен на товары и цены на товары в продаже.
Во-вторых, после того, как я каким-то образом декодировал DOM для x количества сайтов (сделать это для одного или двух легко, но я хочу сделать сканер масштабируемым!) И извлек данные для различных элементов.Мне нужно иметь возможность сравнивать различные названия одних и тех же продуктов, чтобы я мог сравнивать разные цены (конвертировать их в одну и ту же валюту, проверять, является ли возвращенная цена оригинальной ценой / ценой продажи и т. Д.) Между продавцами.
Я пытаюсь написать свои сканеры, используя Scrapy, но может кто-нибудь порекомендовать подход к тому, как адаптировать сканер для различных розничных продавцов, и если есть какие-либо библиотеки / подходы, которые бы хорошо работали для второй проблемы сравнениякак (в отличие) предметы?