Это из упражнения по анализу текста с использованием данных из Гнилых Помидоров. Данные находятся в critics.csv, импортированном как pandas DataFrame, «критики».
Этот фрагмент упражнения предназначен для
Построения кумулятивного распределения частот документов (df). ,Ax-ось - это количество документов (??), а ?-ось - это процент слов, которые появляются меньше (() раз. Например, при ? = 5, нарисуйте точку, представляющую процент или количество слов, которые появляются в 5 или менее документах.
Из предыдущего упражнения у меня есть «Мешок слов»
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
# build the vocabulary and transform to a "bag of words"
X = vectorizer.fit_transform(critics.quote)
# Convert matrix to Compressed Sparse Column (CSC) format
X = X.tocsc()
Пример Evey, который я нашел, вычисляет матрицу документов на слово из этой матрицы «слов» следующим образом:
docs_per_word = X.sum(axis=0)
Я покупаю, это работает;Я посмотрел на результат.
Но я запутался в том, что на самом деле происходит и почему это работает, что суммируется, и как я мог бы понять, как это сделать, не обращая внимания на то, что делали другие люди.