У меня есть папка с подпапками с текстовыми файлами, которая организована следующим образом:
corpus - french - negative - [text files]
corpus - french - positive - [text files]
corpus - german - negative - [text files]
corpus - german - positive - [text files]
Вот код, который я написал до сих пор:
import glob
files_list = glob.glob("corpus/*/*/*")
for path in files_list:
elems = re.split("\\\\", path)
corpus, ln, classe, nom = elems
file = open(path, mode="r", encoding="utf", errors="ignore")
read_file = file.read()
words = read_file.split()
average = sum(len(word) for word in words) / len(words)
print(ln, classe, average)
Моя цель состоит в том, чтобы создайте код, который дает среднее количество слов для всех текстовых файлов, упорядоченных по языку и классу (положительный / отрицательный). Поэтому я хочу, чтобы результаты выглядели так:
french negative 34.2
french positive 23.4
german negative 9.3
german positive 8.23
Вот что я получаю из функции печати: german positive 9.416666666666666
Файлы - это просто твиты, сохраненные под именами 1.txt, 2.txt и др. c.