Question

Я использовал функцию CountVectorizer scikit-learn для подсчета частоты слов в необработанном тексте, и, кажется, он работает при печати, но я не могу найти, как преобразовать его в словарь или массив, с которым я мог бы работать.

Я попытался .toarray (), но он возвращает только значения, а не позицию слова, связанную с ним.

bowChapters = []
for i in range(0,27):
    countV = CountVectorizer(max_features=50) #top 50 words for the chapter 
    chapter = [temp2[i]]
    bowChapters.append(countV.fit_transform(chapter))

print(bowChapters[0]) #Prints correctly in console

вывод print:

 (0, 29)       11
 (0, 35)       29
 (0, 22)       12
 (0, 18)       8

Я хотел бы получить словарь, в котором я могу видеть кортежи, связанные со значениями, но не могу найти нужную функцию вдокумент

Scikitlearn (текстовый) CountVectorizer (csr_matrix) в словарь?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Scikitlearn (текстовый) CountVectorizer (csr_matrix) в словарь?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы