Соскоб в Интернете: используя ссылку или панировочные сухари, чтобы назначить категорию продукта? - PullRequest
0 голосов
/ 04 сентября 2018

Нам нужно получить данные с нескольких веб-сайтов и назначить категорию для каждого продукта.

В настоящее время мы рассматриваем 2 варианта:

1. Ссылка на карту в нашей категории.

Например:

Карта все от https://www.newegg.com/Cell-Phones-Unlocked/SubCategory/ID-2961

и https://www.gearbest.com/chinese-smartphone-_gear/c_11293/ в категорию Мобильные телефоны

2. Отобразить панировочные сухари (или другие доступные данные на странице продукта) в нашей категории.

В настоящее время я за вариант 1, потому что:

  • Я считаю, что бэкэнд меняется реже, чем фронтэнд.
  • На некоторых сайтах нет панировочных сухарей.
  • Мы уже можем использовать назначение категории, которое было сделано человеком. Нет необходимости сопоставления ключевых слов и расчета процента совпадений.

Есть ли лучшие практики для этих сценариев?

Мы не пытаемся отделить сайты от примера. Веб-сайты не на английском языке, поэтому я сомневаюсь, что библиотеки, использующие английский язык, будут работать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...