Ошибка в обработке формы и подгонки тренировочного набора при использовании Multinomial Naive Bayes для классификации текста - PullRequest
0 голосов
/ 21 мая 2018

Я выполнил все задачи предварительной обработки, такие как удаление стоп-слов, HTML-тегов и т. Д. Я пытаюсь классифицировать набор данных фильма IMDB (Большие наборы данных обзора фильмов о Стэнфордском университете) с использованием многозначного наивного байесовского алгоритма.Я получаю ошибку для переменной X. Я превратился в 2D-массив, но не знаю, как обработать ошибку?

Это часть кода Мультивинома Наивного Байеса.

categories = ['pos','neg']
         doc_to_train  = sklearn.datasets.load_files("/home/satyam/aclImdb_v1/aclImdb/train", description = None, categories = categories ,load_content=True,enco    ding='utf-8',shuffle=True,random_state=42)
    vectorizer = CountVectorizer()
    X = (vectorizer.fit_transform(tokens).toarray())
    analyze = vectorizer.build_analyzer()
    vect = vectorizer.get_feature_names()
    y = np.array(doc_to_train.target)
    X = X.reshape()                 
    X = X.transpose()
    print (X)
    X_train, X_test, y_train,y_test= train_test_split(X,y, test_size=0.3)
    mnb=MultinomialNB().fit(X_train,y_train).predict(X_test)
    print ("MNB " %mnb)
    print ("Prediction " %mnb.predict(X_test))
    accuracy = mnb.score(X_test, y_test)
    print ("Accuracy " %accuracy)

Ошибкавстречаются

Traceback (most recent call last):
  File "sentiment_analysis_NB.py", line 92, in <module>
    X = (vectorizer.fit_transform(tokens).toarray())
  File "/usr/lib/python3.6/site-packages/scipy/sparse/compressed.py", line 943, in toarray
    out = self._process_toarray_args(order, out)
  File "/usr/lib/python3.6/site-packages/scipy/sparse/base.py", line 1130, in _process_toarray_args
    return np.zeros(self.shape, dtype=self.dtype, order=order)
MemoryError
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...