В файле Excel содержится около 500 сообщений об ошибках, которые я пытаюсь сгруппировать схожие сообщения об ошибках. Ниже приведены примеры сообщений об ошибках.
- Неверное имя учетной записи
- Неверный номер счета
- Дата закрытия раньше даты открытия
- Дата окончания предшествует активной дате
- Имя учетной записи должно быть уникальным
- Номер счета должен быть уникальным
Мое требование - группировать (или) классифицировать похожие сообщения об ошибках по группам.
Один из способов, который я до сих пор пытался использовать, - использовать Doc2Vec для генерации векторов после предварительной обработки текста. Но я не уверен, как поступить с векторами и как группировать с использованием векторного вывода.
Может кто-нибудь подсказать, как действовать дальше? Если есть какой-то другой лучший способ сделать. Пожалуйста, предложите.