Это мой второй вопрос, так что извиняюсь, если есть какие-либо ошибки.
Моя главная цель - собрать данные с разных сайтов электронной коммерции и сравнить их между собой.Для этого мне нужно сопоставить один и тот же товар с разных сайтов.Поскольку разные сайты пишут заголовок по-разному, мне нужно извлечь атрибут продукта из заголовка для правильного соответствия.Я собрал данные, используя scrapy , но не могу сопоставить один и тот же продукт с разных сайтов.
Моя попытка:
Сначала я собрал бренды, модели и т. Д., А затем сопоставил их с названиями обычным способом.Но это не работает, так как не могу собрать все названия моделей для сравнения.Также у разных категорий товаров атрибуты разные, не похожие.Я пытаюсь найти решение, которое будет работать со всеми видами продуктов.Которые могут изучать и идентифицировать бренды, модель, атрибуты (RAM, Inch, ROM, Camera и т. Д.)
Я также пытался применить машинное обучение, но не понимал, какой тип подхода подойдет для моих нужд.Большинство подходов к классификации текста классифицируют категории, а не атрибуты извлечения.
Я также читаю MALLET .но не уверен, что это решит мою проблему.Также попробовал scikit-learn this tutorial .
Примеры названий продуктов с разных сайтов. Samsung Galaxy S9 Plus
- Samsung Galaxy S9 Plus с бесплатным беспроводным зарядным устройством и 5 ГБ Banglalink DATA - pickaboo
- SAMSUNG GALAXY S9 PLUS - кикша
- Samsung Galaxy S9 + - mobiledokan
- Samsung Galaxy S9 Plus - смартфон - 6,2 "- 6 ГБ ОЗУ - 64 ГБ ПЗУ - камера 12 Мп -Сиреневый пурпурный - daraz
Пожалуйста, поделитесь, как я могу решить эту проблему, какой путь является наилучшим. И, если возможно, поделитесь ссылками или ресурсами аналогичной цели.