Как получить 2 строки, которые представляют символы, но имеют разные двоичные значения, которые будут распознаны как дубликаты по uniq - PullRequest
0 голосов
/ 29 мая 2019

У меня есть 2 строки в текстовом файле, которые показывают Précilia.

Précilia

Précilia

Однако в первой строке есть двоичный файл

01010000 01110010 01100101 1100000001 01100011 01101001 01101100 01101001 01100001

, который показывает é в UTF-8, но не в ASCII, потому что он использует 2 байта для создания символа é. Вторая строка имеет двоичный код

01010000 01110010 11101001 01100011 01101001 01101100 01101001 01100001

, который представлен как A в ASCII и UTF-8. Я пытаюсь сжать список имен, и некоторые из них имеют эти разные двоичные значения, но представляют одинаковые символы на глаз. Uniq будет рассматривать эти два имени как уникальные. Есть ли способ обработать этот список, чтобы uniq считал их одинаковыми?

Я пытался tr -cd '\11\12\15\40-\176' < original.txt > cleaned.txt, но при этом было создано 2 разных записи.

Precilia

Prcilia

В идеале я могу найти решение, которое будет работать для множества этих не-ASCII символов.

...