Предположим, у вас есть файл, в котором каждая строка представляет собой предложение, например, "examples.txt":
I contain unique words.
This sentence repeats repeats a word.
Стратегия может состоять в том, чтобы разбить предложение на составляющие его слова, а затем использовать set
для найти уникальные слова в предложении. Если результирующее set
короче, чем list
всех слов, то вы знаете, что предложение содержит хотя бы одно дублированное слово:
sentences_with_dups = []
with open("sentences.txt") as fh:
for sentence in fh:
words = sentence.split(" ")
if len(set(words)) != len(words):
sentences_with_dups.append(sentence)