У меня есть программа, которая считает слова текстового файла. Теперь я хочу ограничить счетчик строками из более чем x символов
from collections import Counter
input = 'C:/Users/micha/Dropbox/IPCC_Boox/FOD_v1_ch15.txt'
Counter = {}
words = {}
with open(input,'r', encoding='utf-8-sig') as fh:
for line in fh:
word_list = line.replace(',','').replace('\'','').replace('.','').lower().split()
for word in word_list:
if word not in Counter:
Counter[word] = 1
else:
Counter[word] = Counter[word] + 1
N = 20
top_words = Counter(Counter).most_common(N)
for word, frequency in top_words:
print("%s %d" % (word, frequency))
Я попробовал код re
, но он не работал.
re.sub(r'\b\w{1,3}\b')
Я не знаю, какреализовать это ...
В конце я хотел бы получить вывод, который игнорирует все короткие слова, такие как и, вы, быть и т. д.