Как заставить строки символов на иностранных языках правильно вязать в R Markdown - PullRequest
0 голосов
/ 23 апреля 2019

Я анализирую хэштеги из каналов Twitter. Некоторые из хэштегов на иностранных языках. У меня есть хэштеги на арабском, японском и, возможно, других языках. Когда я отображаю их в консоли RStudio, они отображаются правильно. Когда я вяжу их в HTML-код с помощью R Markdown, они отображаются в виде группы вопросительных знаков или кодов, в зависимости от кодировки, с которой я сохранил файл .Rmd.

Я пытался сохранить их с каждой кодировкой, изначально имеющейся в RStudio: ISO-8859-1 (Системная настройка по умолчанию, ASCII, BIG5, GB18030, GB2312, ISO-2022-JP, ISO-2022-KR, ISO-8859- 2, ISO-8859-7, SHIFT-JIS, UTF-8, WINDOWS-1252 с одинаковыми неверными результатами.

Вот так выглядит консоль Rstudio:

> myht <- c("ثائرون_فلسطينيون",  "قروب_فلسطيني", "俳句", "季語", "花の俳 句", "詩", "hashtag7", "hashtag8", "hashtag9")

> myht

[1] "ثائرون_فلسطينيون" "قروب_فلسطيني"     "俳句"             "季語"             "花の俳句"        
[6] "詩"               "hashtag7"         "hashtag8"         "hashtag9" 

Вот как это выглядит в связанном документе HTML (не уверен, что коды U + одинаковы для каждой кодировки):

## [1] "<U+062B><U+0627><U+0626><U+0631><U+0648><U+0646>_<U+0641><U+0644><U+0633><U+0637><U+064A><U+0646><U+064A><U+0648><U+0646>"
## [2] "<U+0642><U+0631><U+0648><U+0628>_<U+0641><U+0644><U+0633><U+0637><U+064A><U+0646><U+064A>"                                
## [3] "<U+4FF3><U+53E5>"                                                                                                         
## [4] "<U+5B63><U+8A9E>"                                                                                                         
## [5] "<U+82B1><U+306E><U+4FF3><U+53E5>"                                                                                         
## [6] "<U+8A69>"                                                                                                                 
## [7] "hashtag7"                                                                                                                 
## [8] "hashtag8"                                                                                                                 
## [9] "hashtag9"

или некоторые кодировки дают этот результат

## [1] "????????????_??????????????????" "????????_??????????????"        
## [3] "??????"                          "??????"                         
## [5] "????????????"                    "???"                            
## [7] "hashtag7"                        "hashtag8"                       
## [9] "hashtag9"

Есть ли способ добавить другие кодировки в RStudio, чтобы различные языки правильно отображались в связанном HTML-документе.

Спасибо

...