Сгруппировать похожие сообщения об ошибках - НЛП / Python машинного обучения - PullRequest
0 голосов
/ 17 марта 2019

В файле Excel содержится около 500 сообщений об ошибках, которые я пытаюсь сгруппировать схожие сообщения об ошибках. Ниже приведены примеры сообщений об ошибках.

  1. Неверное имя учетной записи
  2. Неверный номер счета
  3. Дата закрытия раньше даты открытия
  4. Дата окончания предшествует активной дате
  5. Имя учетной записи должно быть уникальным
  6. Номер счета должен быть уникальным

Мое требование - группировать (или) классифицировать похожие сообщения об ошибках по группам.

Один из способов, который я до сих пор пытался использовать, - использовать Doc2Vec для генерации векторов после предварительной обработки текста. Но я не уверен, как поступить с векторами и как группировать с использованием векторного вывода.

Может кто-нибудь подсказать, как действовать дальше? Если есть какой-то другой лучший способ сделать. Пожалуйста, предложите.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...