Выбор оценщика для отображения строковой независимой переменной в строковую категориальную зависимую переменную - PullRequest
0 голосов
/ 29 марта 2019

Я пытаюсь построить прогностическую модель, которая может сопоставлять текстовые описания услуг, предоставляемые вендорами, с примерно 800 стандартизированными кодами услуг, на основе обучающего набора из примерно 13 000 правильно сопоставленных сервисов.

Каждый стандартизированный сервисный код также имеет стандартизированное описание, которое обычно похоже на предоставленное поставщиком описание (т. Е. Некоторые из используемых слов совпадают), но не идентично.Обычно описания состоят из 3-10 слов

Моя главная проблема заключается в том, что я не уверен, какой тип оценки подойдет для этой проблемы.

Я пытался использовать простые подходы нечеткого сопоставления, в том числе:

  • Подсчет совпадающих слов / символов между описаниями предоставляемых поставщиком и стандартизированных услуг и выбор наиболее подходящих описаний
  • Попытка найти стандартизированное описание услуги с минимальнымРасстояние Левенштейна

Они не работали особенно хорошо из-за использования синонимичных, но различных вариантов слов в предоставленных поставщиком и стандартизированных описаниях.

Я также рассмотрел вопрос об использовании дерева решений, но это представляется невозможным при 800+ возможных результатах.

Какой тип оценки я могу использовать для решения этой проблемы?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...