Работа с не ascii символами в массиве - PullRequest
0 голосов
/ 30 ноября 2018

Я работаю над программой, которая читает текстовые файлы (utf-8) в массив символов, а затем выполняет такие вещи, как сортировка, обрезка и сравнение на равенство и т. Д.

Я не очень знаком сработы различных кодировок, но я обнаружил, что определенные символы, кажется, хранятся как 2 символа.(Это может быть неправильный способ выразить это).Я имею в виду следующее: Возьмите этот текст: t = 'JOSÉnãodiga' Когда я проверяю t(4) = 'E', t(5) = '́' и t(4:5) = 'É'

Очевидно, что когда я сортирую текст за символом, он портит эти специальные символы.Я полагаю, мне нужно найти способ как-то переключить представление, чтобы каждый из этих символов стал одной сущностью (и, например, int), а затем выполнить обработку и, возможно, преобразование обратно.

Вероятно, этоозначает изменение определенного способа чтения и анализа файла.

Для чтения файлов я использую:

function txt = readText(fileName)
textFile = fopen(fileName,'rt'); 
txt = textscan(textFile,'%c');
fclose(textFile);
txt = txt{:,1}';

Любая помощь и указания приветствуются!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...