Как сопоставить товары из названий из разных источников электронной коммерции?извлечь атрибуты продуктов - PullRequest
0 голосов
/ 05 июня 2018

Это мой второй вопрос, так что извиняюсь, если есть какие-либо ошибки.

Моя главная цель - собрать данные с разных сайтов электронной коммерции и сравнить их между собой.Для этого мне нужно сопоставить один и тот же товар с разных сайтов.Поскольку разные сайты пишут заголовок по-разному, мне нужно извлечь атрибут продукта из заголовка для правильного соответствия.Я собрал данные, используя scrapy , но не могу сопоставить один и тот же продукт с разных сайтов.

Моя попытка:

Сначала я собрал бренды, модели и т. Д., А затем сопоставил их с названиями обычным способом.Но это не работает, так как не могу собрать все названия моделей для сравнения.Также у разных категорий товаров атрибуты разные, не похожие.Я пытаюсь найти решение, которое будет работать со всеми видами продуктов.Которые могут изучать и идентифицировать бренды, модель, атрибуты (RAM, Inch, ROM, Camera и т. Д.)

Я также пытался применить машинное обучение, но не понимал, какой тип подхода подойдет для моих нужд.Большинство подходов к классификации текста классифицируют категории, а не атрибуты извлечения.

Я также читаю MALLET .но не уверен, что это решит мою проблему.Также попробовал scikit-learn this tutorial .

Примеры названий продуктов с разных сайтов. Samsung Galaxy S9 Plus

  • Samsung Galaxy S9 Plus с бесплатным беспроводным зарядным устройством и 5 ГБ Banglalink DATA - pickaboo
  • SAMSUNG GALAXY S9 PLUS - кикша
  • Samsung Galaxy S9 + - mobiledokan
  • Samsung Galaxy S9 Plus - смартфон - 6,2 "- 6 ГБ ОЗУ - 64 ГБ ПЗУ - камера 12 Мп -Сиреневый пурпурный - daraz

Пожалуйста, поделитесь, как я могу решить эту проблему, какой путь является наилучшим. И, если возможно, поделитесь ссылками или ресурсами аналогичной цели.

1 Ответ

0 голосов
/ 05 июня 2018

Используйте библиотеку предложений или слово2 для преобразования текстов в векторы.После этого используйте косинусное сходство между векторами.

оставьте некоторое пороговое значение подобия, или векторы с максимальными значениями подобия будут совпадать с произведениями.

Вот как вы можете сравнить их.

...