невозможно создать матрицу документа термина в python (jupyter) - PullRequest
0 голосов
/ 03 ноября 2018

При выполнении следующего кода в jupyter для создания матрицы терминов документа я получаю сообщение об ошибке nameerror: имя 'textmining' не определено.

Код следующий:

#create term document matrix
tdm = textmining.TermDocumentMatrix(post_corpus)

for i in post_corpus:
    #print(i)
    tdm.add_doc(i)

NameError: name 'textmining' is not defined

Я проверил, установлена ​​ли функция обработки текста, запустив этот код:

!pip install textmining

и после запуска вывод:

Требование уже выполнено: поиск текста в c: \ users \ asus \ anaconda3 \ lib \ site-packages (1.0)

Требование уже выполнено: происходит в c: \ users \ asus \ anaconda3 \ lib \ site-packages (1.0.1)

Что мне делать, чтобы противостоять ошибке имени, возникающей при создании матрицы терминов документа? Есть ли какой-нибудь альтернативный способ создания этого термина документа матрицы?

1 Ответ

0 голосов
/ 03 ноября 2018

Вы импортировали?

import textmining

tdm = textmining.TermDocumentMatrix()
for post in post_corpus:
    tdm.add_doc(post)

Обновление: 08-11-2018 Мы можем использовать scikit-learn, чтобы получить те же результаты

Требования:

pip install -U numpy scipy scikit-learn pandas 

После установки:

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

corpus =['John and Bob are brothers.'
    ,'John went to the store. The store was closed.'
    ,'Bob went to the store too.',]


vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

df= pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names())

Результат: enter image description here

...