чтение и использование Inuktitut в R - PullRequest
0 голосов
/ 28 февраля 2019

Я пытаюсь прочитать csv-файлы с названиями городов инуктитут в R. Я использую станцию ​​Windows.На данный момент, кажется, нет никакого способа заставить R понять канадскую аборигенную программу.

Я попытался установить региональный язык CAS, я попытался

Sys.setlocale(, "Inuktitut (Syllabics)_Canada"), и это не помогает.

Если у кого-то есть идеи, я был бы признателен.

После того, как я введу указанную выше команду, если я сделаю:

format(Sys.Date(), '%A') Я получу

[1] "?????"

В импортируемых мной файлах csv, excel и txt я также получаю ??????.

Более подробная информация, это проблема Windows.Я попробовал на своем Mac, и я могу читать символы Inuktitut и отображать их в R.

Если я сохраняю файл excel в UTF-8, в R символ Unicode будет показан их кодом:

<U+1403><U+1483>

Итак, силлабический юникод есть, но R не может каким-либо образом визуализировать символ.

Обновление: я провел дополнительные тесты.Если я сделаю это:

library(stringi)

string <- "<U+1042><U+1040><U+1042><U+1040> <U+1019><U+103D>   <U+102C>\n\n<U+1010><U+102D><U+102F><U+1004><U+1039><U+1038><U+103B><U+1015><U+100A><U+1039><U+1000><U+102D><U+102F><U+101C><U+1032>"


cat(stri_unescape_unicode(gsub("<U\\+(....)>", "\\\\u\\1", string)))

Это будет печатать символы Мьянмы.

Однако это:

string <- "<U+1403><U+1483><U+1431><U+140A><U+1550>"

cat(stri_unescape_unicode(gsub("<U\\+(....)>", "\\\\u\\1", string)))

Будет печатать пустым.

...