Методы сжатия редкого пакета слов - PullRequest
0 голосов
/ 13 июня 2019

Я создал модель мешка слов для классификации текста.Я сделал это следующим образом.

matrix = CountVectorizer(max_features=1000, ngram_range=(1, 2))
X_train = matrix.fit_transform(X_train).toarray()
X_test = matrix.transform(X_test).toarray()

Итак, у меня очень скудное пространство функций.Какие методы позволяют сделать мое пространство признаков более сжатым?

Моя идея - сделать каждый обучающий вектор списком ненулевых индексов.То есть конвертируем [0, 0, 1, 0, 1, 1, 0, 0, 0, 0] в [2, 4, 5].Проблема не во всех обучающих векторах одинаковой длины.

...