У меня есть 2 строки в текстовом файле, которые показывают Précilia.
Précilia
Précilia
Однако в первой строке есть двоичный файл
01010000 01110010 01100101 1100000001 01100011 01101001 01101100 01101001 01100001
, который показывает é в UTF-8, но не в ASCII, потому что он использует 2 байта для создания символа é.
Вторая строка имеет двоичный код
01010000 01110010 11101001 01100011 01101001 01101100 01101001 01100001
, который представлен как A в ASCII и UTF-8.
Я пытаюсь сжать список имен, и некоторые из них имеют эти разные двоичные значения, но представляют одинаковые символы на глаз. Uniq будет рассматривать эти два имени как уникальные. Есть ли способ обработать этот список, чтобы uniq считал их одинаковыми?
Я пытался tr -cd '\11\12\15\40-\176' < original.txt > cleaned.txt
, но при этом было создано 2 разных записи.
Precilia
Prcilia
В идеале я могу найти решение, которое будет работать для множества этих не-ASCII символов.