Я использовал функцию CountVectorizer scikit-learn для подсчета частоты слов в необработанном тексте, и, кажется, он работает при печати, но я не могу найти, как преобразовать его в словарь или массив, с которым я мог бы работать.
Я попытался .toarray (), но он возвращает только значения, а не позицию слова, связанную с ним.
bowChapters = []
for i in range(0,27):
countV = CountVectorizer(max_features=50) #top 50 words for the chapter
chapter = [temp2[i]]
bowChapters.append(countV.fit_transform(chapter))
print(bowChapters[0]) #Prints correctly in console
вывод print:
(0, 29) 11
(0, 35) 29
(0, 22) 12
(0, 18) 8
Я хотел бы получить словарь, в котором я могу видеть кортежи, связанные со значениями, но не могу найти нужную функцию вдокумент