Я работаю над программой, которая читает текстовые файлы (utf-8) в массив символов, а затем выполняет такие вещи, как сортировка, обрезка и сравнение на равенство и т. Д.
Я не очень знаком сработы различных кодировок, но я обнаружил, что определенные символы, кажется, хранятся как 2 символа.(Это может быть неправильный способ выразить это).Я имею в виду следующее: Возьмите этот текст: t = 'JOSÉnãodiga'
Когда я проверяю t(4) = 'E'
, t(5) = '́'
и t(4:5) = 'É'
Очевидно, что когда я сортирую текст за символом, он портит эти специальные символы.Я полагаю, мне нужно найти способ как-то переключить представление, чтобы каждый из этих символов стал одной сущностью (и, например, int), а затем выполнить обработку и, возможно, преобразование обратно.
Вероятно, этоозначает изменение определенного способа чтения и анализа файла.
Для чтения файлов я использую:
function txt = readText(fileName)
textFile = fopen(fileName,'rt');
txt = textscan(textFile,'%c');
fclose(textFile);
txt = txt{:,1}';
Любая помощь и указания приветствуются!