Недавно я начал читать больше о НЛП и следовать учебным пособиям на Python, чтобы узнать больше об этом предмете.Следуя одному из руководств, я заметил, что они использовали разреженную матрицу подсчета слов в каждом твите (созданную с помощью CountVectorizer) в качестве входных данных для TfidfTransformer, который обрабатывает данные и передает их в классификатор для обучения и прогнозирования.
pipeline = Pipeline([
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', LogisticRegression())
])
Поскольку никакого объяснения не было предоставлено, я не могу понять мыслительный процесс, стоящий за этим ... Разве это не обычный пакет слов?Разве это не может быть сделано с помощью одной из функций, например, только Tfidf?
Любые разъяснения будут с благодарностью.