Я новичок в Python и застрял на проблеме.Я написал код для определения общего количества слов, а также уникального количества слов в нескольких файлах (в данном случае файлы .txt являются главами книги: образец текста из файла1 ". В течение какого периода времени обсуждались причины изменчивостикакими бы они ни были, обычно действуют; будь то на раннем или позднем периоде развития зародыша или в момент зачатия. "; образец текста из файла2" Наконец, сорта имеют те же общие признаки, что и виды, дляих нельзя отличить от видов, за исключением, во-первых, открытия промежуточных форм связывания »).
Я не могу найти в Интернете примеров того, как сравнивать слова между файлами.Мне нужно определить количество слов, которые делятся между файлами и количество слов, которые являются уникальными для каждого файла (по отношению к другим файлам).Мой окончательный вывод должен включать 7 чисел: общее количество слов для файла1 и файла2, уникальное количество слов для файла1 и файла2, количество слов, общих для файла1 и файла2, количество слов в файле1, но не в файле2, и, наконец, количество слов в файле2но не в файле1.Я знаю, что для этого нужно использовать set (), но я не понимаю, как.
import glob
from collections import Counter
path = "c-darwin-chapter-?.txt"
wordcount = {}
for filename in glob.glob(path):
with open("c-darwin-chapter-1.txt", 'r') as f1, open("c-darwin-chapter-2.txt", 'r') as f2:
f1_word_list = Counter(f1.read().replace(',','').replace('.','').replace("'",'').replace('!','').replace('&','').replace(';','').replace('(','').replace(')','').replace(':','').replace('?','').lower().split())
print("Total word count per file: ", sum(f1_word_list.values()))
print("Total unique word count: ", len(f1_word_list))
f2_word_list = Counter(f2.read().replace(',','').replace('.','').replace("'",'').replace('!','').replace('&','').replace(';','').replace('(','').replace(')','').replace(':','').replace('?','').lower().split())
print("Total word count per file: ", sum(f2_word_list.values()))
print("Total unique word count: ", len(f2_word_list))
#if/main commented out but final code must use if/main and loop
#if __name__ == '__main__':
# main()
Желаемый вывод:
Total word count
Chapter1 = 11615
Chapter2 = 4837
Unique word count
Chapter1 = 1991
Chapter2 = 1025
Words in Chapter1 and Chapter2: 623
Words in Chapter1 not in Chapter2: 1368
Words in Chapter2 not in Chapter1: 402