Классификация текста с использованием предварительно обученных векторов Word без нейронной сети - PullRequest
0 голосов
/ 29 января 2019

Предыстория: я оценивал различные методы классификации текста в моем наборе данных, включая использование векторов признаков, полученных из счетчиков слов и TF-IDF, и затем прогонял их через различные классификаторы.Мой набор данных очень мал (около 2300 предложений и около 5 классов), и, учитывая вышеизложенные подходы, относящиеся к разным, как к совершенно отдельным, я хотел бы использовать словесно-векторный подход к классификации.Я использовал предварительно обученные векторы слов с мелким NN с небольшим успехом.

Проблема: я ищу альтернативный метод использования векторов слов для классификации моих предложений и подумал о том, чтобы взять векторы слов для предложения, комбинируяих в один вектор, затем взять центр тяжести каждого класса векторов предложений - тогда классификация будет производиться через меру расстояния между новым предложением и центром тяжести.

Как я могу объединить векторы слов в "предложениевектор "учитывая мой маленький набор данных?

Ответы [ 3 ]

0 голосов
/ 30 января 2019

Отличительной особенностью word2vecs является то, что вы можете выполнять над ними простые операции.Один из распространенных способов перехода от слов к предложениям состоит в том, чтобы просто взять усредненные векторы слов для всех слов в предложении.

, поскольку ваши выборочные данные малы, я бы использовал отдельное вложение из Gensim Data , переподготовку с использованием вашей собственной выборки и в конце использовал бы более простой классификатор, такой как логистическая регрессия.

По словам Натана, если вы хотите классифицировать документы, Doc2Vec является отличным расширением Word2Vec, которое сокращает множество шагов.С помощью нескольких итераций вы можете добиться действительно хороших результатов. Здесь - отличная реализация Doc2Vec.

0 голосов
/ 11 июля 2019

Я бы использовал для этого реализацию Paragraph Vector от gensim, Doc2Vec .Я только что написал статью , описывающую, как использовать ее для классификации обзоров фильмов, которые могут вам помочь!

0 голосов
/ 29 января 2019

В основном вам нужно знать, где сначала разбить ваши предложения, а затем вы можете использовать модель doc2vec для этих предложений.

https://radimrehurek.com/gensim/models/doc2vec.html

  1. Определите, где находятся границы вашего предложения
  2. Разделение предложения модели
  3. Обучение модели Doc2Vec по предложениям
  4. Вводите векторы предложений в модель NN

Я сделал это с ограниченным успехом.Ваш корпус маленький, но вы всегда можете попробовать его, а затем проверить / проверить / оценить!

Удачи

...