Я работаю над сценарием для очистки файла .txt, создания списка, подсчета частот уникальных слов и вывода файла .csv с частотами.Я хотел бы открыть несколько файлов и объединить их, чтобы по-прежнему выводить один файл .csv.
Будет ли эффективнее написать код, который сначала объединит текст между файлами .txt, или прочитать / очистить все уникальные файлы, а затем объединить списки / словари?Как будет выглядеть синтаксис для оптимального сценария?
Я пытался исследовать его самостоятельно, но у меня очень ограниченные навыки кодирования, и я не могу найти ответ, который соответствует моему конкретному вопросу.Я ценю любой вклад.Спасибо!
import re
filename = 'testtext.txt'
file = open(filename, 'rt')
text = file.read()
file.close()
import re
words = re.split(r'\W+', text)
words = [word.lower() for word in words]
import string
table = str.maketrans('', '', string.punctuation)
stripped = [w.translate(table) for w in words]
from collections import Counter
countlist = Counter(stripped)
import csv
w = csv.writer(open("testtext.csv", "w"))
for key, val in countlist.items():
w.writerow([key, val])