Как преобразовать список Документов в Векторы TF-IDF? - PullRequest
0 голосов
/ 20 января 2012

Я хотел бы построить матрицу Документ x Word из списка документов, хранящихся во многих папках. Конкретная запись x в матрице указывает на то, что word_j встречается x раз в document_i . Список слов для рассмотрения приведен в файле Vocabulary.txt.
Есть ли уже существующий пакет, который просматривает документ по одному, удаляет стоп-слова и создает вектор документа?

...