Каков наилучший способ моделирования сходства документов между различными строковыми параметрами? - PullRequest
0 голосов
/ 06 ноября 2018

У меня проблема с предсказанием решений проблем, с которыми сталкиваются пользователи.

Проблема с настройкой выглядит следующим образом:

У нас есть база данных проблем и решений. Для каждой задачи у нас есть три параметра для ее представления.

  1. JobName (String - Название работы)
  2. JobId (целое число - идентификатор работы)
  3. RootCause (строка - причина этой проблемы).

Каждая проблема имеет соответствующее решение, добавленное тем пользователем, который столкнулся с этой проблемой. Этот параметр решений

  1. Решение (строка - решение, введенное пользователем для этой проблемы)

Таким образом, мы хотели использовать эту базу данных и предсказать решения для новых проблем (проблема - набор имени задания, идентификатора задания, rootcause - все являются строками)

Мы изначально придумали это решение. Мы просто хотим выявить проблемы (набор имени задания, jobid, rootcause), аналогичные нашей проблеме запроса, и дать решение ближайшей проблемы. Но в этом случае у нас нет никакого способа измерить ошибку обучения, как у нас в задачах прогнозирования цен на жилье.

В общем, как мы подходим к этой проблеме, и какие модели машинного обучения нам нужно использовать?

1 Ответ

0 голосов
/ 06 ноября 2018

Кажется, вы хотите создать систему рекомендаций. В зависимости от причины проблемы, предложите список рекомендуемых решений. Одно из возможных решений - использовать word2vec для векторизации RootCause, а затем попытаться найти похожие проблемы, используя векторное сходство.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...