Классификация текста с помощью Word2Vec - PullRequest
0 голосов
/ 18 июня 2020

Мне сложно понять Word2Ve c. Мне нужно сделать классификацию текста службы поддержки на основе того, на что пользователи жалуются в системе службы поддержки. Каждое предложение имеет свой класс.

Я видел несколько предварительно обученных файлов word2ve c в inte rnet, но я не знаю, лучший ли это способ работы, поскольку моя проблема очень конкретный c. И мой набор данных на португальском.

Я считаю, что мне нужно будет создать свою собственную модель, и я сомневаюсь, как это сделать. Должен ли я делать это с теми же словами, что и набор данных, который у меня есть с моими предложениями и классами?

В первой строке заголовки столбцов. Под первой строкой у меня есть предложение и класс. Кто-нибудь может мне помочь? Я видел, как Генсин создавал векторные модели, и мне это понравилось. Но я полностью заблудился.

: chamado, classe 'Prezados não estou consguindo gerar uma nota financial do módulo de estoque e custos.', 'ERP GESTÃO', 'Não consi go acessar o ERP com meu usuário e senha . ',' ERP GESTÃO ',' Médico não congue gerar Receituário no módulo de Medicina e segurança do trabalho. ',' ERP GESTÃO ',' O produto 4589658 tinta holográfica não está disponível no EI C e n 10 *o gerar a PO. ',' ERP GESTÃO ',

1 Ответ

0 голосов
/ 18 июня 2020

Ваш запрос носит очень общий характер, и обычно StackOverflow может больше помочь, если вы попробуете определенные c вещи и нажмете конкретные c проблемы, чтобы вы могли предоставить точный код, ошибки или недочеты для спросить о.

Но в целом:

  • Вам может вообще не понадобиться word2ve c: существует множество подходов к классификации текста, которые при наличии достаточных обучающих данных могут назначить ваш тексты в полезные классы без использования слов-векторов. Скорее всего, вы захотите сначала попробовать их, а затем рассматривать слова-векторы как более позднее усовершенствование.

  • Чтобы слова-векторы были полезны, они должны быть основаны на вашем реальном языке, и также, в идеале, ваша конкретная проблемная область. Generi c векторы слов из новостных статей или даже Википедии могут не включать в себя важную lin go и смысловые значения для вашей проблемы. Но натренировать собственные словосочетания-векторы не так уж и сложно - вам просто нужно много разнообразных, релевантных текстов, в которых слова используются реалистично c, в соответствующих контекстах. Так что да, в идеале вы должны тренировать свои словесные векторы на тех же текстах, которые вы в конечном итоге хотите классифицировать.

Но в большинстве случаев, если вы «совсем заблудились», начните с более простых примеров классификации текста. Поскольку вы используете Python, примеры, основанные на scikit-learn, могут быть наиболее актуальными. Адаптируйте их к своим данным и целям, чтобы ознакомиться со всеми шагами и способами оценки того, улучшают ли ваши изменения ваши конечные результаты или нет. Затем исследуйте такие техники, как слово-векторы.

...