Предыстория: я оценивал различные методы классификации текста в моем наборе данных, включая использование векторов признаков, полученных из счетчиков слов и TF-IDF, и затем прогонял их через различные классификаторы.Мой набор данных очень мал (около 2300 предложений и около 5 классов), и, учитывая вышеизложенные подходы, относящиеся к разным, как к совершенно отдельным, я хотел бы использовать словесно-векторный подход к классификации.Я использовал предварительно обученные векторы слов с мелким NN с небольшим успехом.
Проблема: я ищу альтернативный метод использования векторов слов для классификации моих предложений и подумал о том, чтобы взять векторы слов для предложения, комбинируяих в один вектор, затем взять центр тяжести каждого класса векторов предложений - тогда классификация будет производиться через меру расстояния между новым предложением и центром тяжести.
Как я могу объединить векторы слов в "предложениевектор "учитывая мой маленький набор данных?