Обработка текста, содержащего двухбуквенный символ - PullRequest
0 голосов
/ 08 ноября 2018

Как бы вы обработали / сохранили букву 'CH' в коде Java, скажем, для частотного анализа? Я не нашел никаких алфавитных библиотек, которые будут работать с двойными буквами 'CH'. Хранение в символе больше не вариант. Все алгоритмы обработки текста просто сканируют один за другим. Но теперь мне нужно будет как-то сканировать заранее, чтобы соответствовать паре. В юникоде также нет символа 'CH', есть ли другие таблицы кодирования, где можно найти 'CH'?

Другим способом будет заменить 'CH' на '1' во входных файлах данных и трактовать '1' как еще один обычный символ. Из-за этого я потеряю опцию арифметики кодов ASCII ('a' - 't' - нонсенс, поскольку в ASCII отсутствует 'ch')

...