Массив Python Sparse Matrix, непригодный для использования с xgboost или другим - PullRequest
0 голосов
/ 08 февраля 2019

Я генерирую матрицу из tfidf из большого корпуса.

Я сохранил эту матрицу с помощью np.save (формат .npy)

from sklearn.feature_extraction.text import TfidfVectorizer
from nltk import word_tokenize
tfidf =TfidfVectorizer(sublinear_tf=True, min_df=5,norm='l2',
encoding="utf-`8",ngram_range=(2,3))
text = [" ".join(txt) for txt in df["txt_lemma"]]

matrix = tfidf.fit_transform(text)

np.save("c:/Oliv/matrix.npy",matrix) `

Затем я попытался перезагрузить свойматрица с matrix = np.load("c:/Oliv/matrix.npy")

, когда я смотрю на свою матрицу (repr (матрица)), это массив: "(<106386x8615140 разреженная матрица типа '' \ n \ twith 184318516 сохраненных элементов в Compressed Sparse Rowformat>, \ n dtype = object) "

Что я могу сделать, чтобы использовать в xgboost

`xgtrain = xgb.DMatrix(matrix, label = df.pole )`

Я не могу разделить эту матрицу в обучающей и тестовой частях из сгенерированного индексас моей переменной Y.

спасибо за вашу помощь!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...