У меня есть скрипт, который выполняет базовую c очистку текста и токенизацию, а затем подсчет и сортировку частоты слов. Я могу заставить скрипт работать с отдельными файлами, но мне нужна помощь для его реализации во всем каталоге. Короче говоря, я хотел бы использовать этот код для подсчета частоты глобальных слов во всем каталоге (не возвращать отдельные значения для каждого файла).
Вот мой код:
import re
import string
from collections import Counter
file = open("german/test/polarity/positive/0.txt", mode="r", encoding="utf-8")
read_file = file.read()
#remove punctuation
translation = str.maketrans("","", string.punctuation)
stripped_file = read_file.translate(translation)
##lowercase
file_clean = stripped_file.lower()
##tokenize
file_tokens = file_clean.split()
##word count and sort
def word_count(file_tokens):
for word in file_tokens:
count = Counter(file_tokens)
return count
print(word_count(file_tokens))