У меня есть текстовый файл со списком повторяющихся имен (некоторые из которых имеют акцентированные алфавиты, такие как é, à, î и т. Д.)
например. Список: Précilia, Мэгги, Précilia
Мне нужно написать код, который выдаст уникальные имена.
Но мой текстовый файл, кажется, имеет различную кодировку символов для двух акцентированных символов в двух вхождениях Précilia (я думаю, возможно ASCII для одного и UTF-8 для другого). Таким образом, мой код дает оба появления Précilia как разные уникальные элементы. Вы можете найти мой код ниже:
seen = set()
with open('./Desktop/input1.txt') as infile:
with open('./Desktop/output.txt', 'w') as outfile:
for line in infile:
if line not in seen:
outfile.write(line)
seen.add(line)
Ожидаемый результат: Присилия, Мэгги
Фактический и неправильный вывод: Прецилия, Мэгги, Прецилия
Обновление: исходный файл очень большой. Мне нужен способ рассмотреть оба этих случая как одно.