Использование CountVectorizer для создания разреженной матрицы из списка файлов не удается - PullRequest
0 голосов
/ 17 марта 2020

Я надеюсь, что смогу помочь ей. Я пытаюсь написать программу Python, которая подсчитывает слова в каждом файле с помощью CountVectorizer и после этого создает разреженную матрицу. Я создаю список с каталогом для каждого файла, который должен быть проанализирован. Файлы содержат по одному слову в строке, поэтому token_pattern имеет значение «+», поэтому он разбивает данные по каждой новой строке. Это работает нормально, но я получаю код выхода 1 при попытке преобразовать его с помощью fit_transform () Result , и я просто не знаю, что делать дальше.

import os
from sklearn.feature_extraction.text import CountVectorizer
a = "C:/Datensatz/feature_vectors"
dirs = os.listdir(a)
filename_paths = []
for file in dirs:
    filename_paths.append(a + "/" + file)
print(filename_paths)
vec = CountVectorizer(input="filename", token_pattern="+", lowercase=False)
print("vec fertig")
sparse_matrix = vec.fit_transform(filename_paths)
print("sparse fertig")

1 Ответ

0 голосов
/ 17 марта 2020

Token_pattern должен быть ". +"

...