Я создал модель мешка слов для классификации текста.Я сделал это следующим образом.
matrix = CountVectorizer(max_features=1000, ngram_range=(1, 2))
X_train = matrix.fit_transform(X_train).toarray()
X_test = matrix.transform(X_test).toarray()
Итак, у меня очень скудное пространство функций.Какие методы позволяют сделать мое пространство признаков более сжатым?
Моя идея - сделать каждый обучающий вектор списком ненулевых индексов.То есть конвертируем [0, 0, 1, 0, 1, 1, 0, 0, 0, 0]
в [2, 4, 5]
.Проблема не во всех обучающих векторах одинаковой длины.