Я выполнил все задачи предварительной обработки, такие как удаление стоп-слов, HTML-тегов и т. Д. Я пытаюсь классифицировать набор данных фильма IMDB (Большие наборы данных обзора фильмов о Стэнфордском университете) с использованием многозначного наивного байесовского алгоритма.Я получаю ошибку для переменной X. Я превратился в 2D-массив, но не знаю, как обработать ошибку?
Это часть кода Мультивинома Наивного Байеса.
categories = ['pos','neg']
doc_to_train = sklearn.datasets.load_files("/home/satyam/aclImdb_v1/aclImdb/train", description = None, categories = categories ,load_content=True,enco ding='utf-8',shuffle=True,random_state=42)
vectorizer = CountVectorizer()
X = (vectorizer.fit_transform(tokens).toarray())
analyze = vectorizer.build_analyzer()
vect = vectorizer.get_feature_names()
y = np.array(doc_to_train.target)
X = X.reshape()
X = X.transpose()
print (X)
X_train, X_test, y_train,y_test= train_test_split(X,y, test_size=0.3)
mnb=MultinomialNB().fit(X_train,y_train).predict(X_test)
print ("MNB " %mnb)
print ("Prediction " %mnb.predict(X_test))
accuracy = mnb.score(X_test, y_test)
print ("Accuracy " %accuracy)
Ошибкавстречаются
Traceback (most recent call last):
File "sentiment_analysis_NB.py", line 92, in <module>
X = (vectorizer.fit_transform(tokens).toarray())
File "/usr/lib/python3.6/site-packages/scipy/sparse/compressed.py", line 943, in toarray
out = self._process_toarray_args(order, out)
File "/usr/lib/python3.6/site-packages/scipy/sparse/base.py", line 1130, in _process_toarray_args
return np.zeros(self.shape, dtype=self.dtype, order=order)
MemoryError