Я пытаюсь прочитать csv-файлы с названиями городов инуктитут в R. Я использую станцию Windows.На данный момент, кажется, нет никакого способа заставить R понять канадскую аборигенную программу.
Я попытался установить региональный язык CAS, я попытался
Sys.setlocale(, "Inuktitut (Syllabics)_Canada")
, и это не помогает.
Если у кого-то есть идеи, я был бы признателен.
После того, как я введу указанную выше команду, если я сделаю:
format(Sys.Date(), '%A')
Я получу
[1] "?????"
В импортируемых мной файлах csv, excel и txt я также получаю ??????.
Более подробная информация, это проблема Windows.Я попробовал на своем Mac, и я могу читать символы Inuktitut и отображать их в R.
Если я сохраняю файл excel в UTF-8, в R символ Unicode будет показан их кодом:
<U+1403><U+1483>
Итак, силлабический юникод есть, но R не может каким-либо образом визуализировать символ.
Обновление: я провел дополнительные тесты.Если я сделаю это:
library(stringi)
string <- "<U+1042><U+1040><U+1042><U+1040> <U+1019><U+103D> <U+102C>\n\n<U+1010><U+102D><U+102F><U+1004><U+1039><U+1038><U+103B><U+1015><U+100A><U+1039><U+1000><U+102D><U+102F><U+101C><U+1032>"
cat(stri_unescape_unicode(gsub("<U\\+(....)>", "\\\\u\\1", string)))
Это будет печатать символы Мьянмы.
Однако это:
string <- "<U+1403><U+1483><U+1431><U+140A><U+1550>"
cat(stri_unescape_unicode(gsub("<U\\+(....)>", "\\\\u\\1", string)))
Будет печатать пустым.