Я конвертирую некоторые польские <-> английские словари из RTF в HTML. Польские спецсимволы выходят хорошо. Но глифы IPA (International Phonetic Alphabet) меняются на забавные, в зависимости от того, какую программу я использую для конвертации. Например, / ˈbiːrɪ / выходит как / ÈbiùrI / или /∪βιρΙ/.
Я бы хотел исправить эти документы с помощью поиска и замены, но я хочу убедиться, что я не пропускаю никаких символов и не хочу вручную разбирать записи словаря. Я хотел бы вывести список всех уникальных символов NON-ascii в документе.
Я нашел эту тему:
Поиск уникальных символов в файле
... и я попробовал следующие два предложения:
sed -e "s /./ \ 0 \ n / g" inputfile | сортировать -u
sed -e "s / (.) / \ 1 \ n / g" входной файл | сортировать -u
Они оба прекрасно работают и, похоже, выдают одинаковый результат. Моя проблема в том, что они выводят только стандартные символы ASCII, а то, что я ищу, с точностью до наоборот.
Инструмент sed выглядит потрясающе, но у меня нет времени изучать его прямо сейчас (хотя я собираюсь позже). Я надеюсь, что решение будет понятно для тех, кто уже освоил этот инструмент, и они могут сэкономить мне много времени. [-:
Заранее спасибо!