Я думаю, ваш вопрос уже намекает на хорошее решение:
"текстовый файл с около 14000 предложений"
with open('file.txt') as f:
data = f.readlines() # assuming each line is a sentence or the like
«получить каждое отдельное слово» и «счетчик отличных слов» и «хэширование (в противном случае я бы имел один и тот же хэш несколько раз)»
- в зависимости от того, как его использовать, set
, как было сказано ранее, сделает это только для вас. Вы упомянули хеширование и задаете использование хешей для локализации объектов в сегменты.
unique_words = set()
for line in data:
clean_line = line.rstrip()
words = clean_line.split() # get all the words from one line
unique_words.update(words) # throws these words into the set
Набор позаботится о дупсах для тебя