Я анализирую хэштеги из каналов Twitter. Некоторые из хэштегов на иностранных языках. У меня есть хэштеги на арабском, японском и, возможно, других языках. Когда я отображаю их в консоли RStudio, они отображаются правильно. Когда я вяжу их в HTML-код с помощью R Markdown, они отображаются в виде группы вопросительных знаков или кодов, в зависимости от кодировки, с которой я сохранил файл .Rmd.
Я пытался сохранить их с каждой кодировкой, изначально имеющейся в RStudio: ISO-8859-1 (Системная настройка по умолчанию, ASCII, BIG5, GB18030, GB2312, ISO-2022-JP, ISO-2022-KR, ISO-8859- 2, ISO-8859-7, SHIFT-JIS, UTF-8, WINDOWS-1252 с одинаковыми неверными результатами.
Вот так выглядит консоль Rstudio:
> myht <- c("ثائرون_فلسطينيون", "قروب_فلسطيني", "俳句", "季語", "花の俳 句", "詩", "hashtag7", "hashtag8", "hashtag9")
> myht
[1] "ثائرون_فلسطينيون" "قروب_فلسطيني" "俳句" "季語" "花の俳句"
[6] "詩" "hashtag7" "hashtag8" "hashtag9"
Вот как это выглядит в связанном документе HTML (не уверен, что коды U + одинаковы для каждой кодировки):
## [1] "<U+062B><U+0627><U+0626><U+0631><U+0648><U+0646>_<U+0641><U+0644><U+0633><U+0637><U+064A><U+0646><U+064A><U+0648><U+0646>"
## [2] "<U+0642><U+0631><U+0648><U+0628>_<U+0641><U+0644><U+0633><U+0637><U+064A><U+0646><U+064A>"
## [3] "<U+4FF3><U+53E5>"
## [4] "<U+5B63><U+8A9E>"
## [5] "<U+82B1><U+306E><U+4FF3><U+53E5>"
## [6] "<U+8A69>"
## [7] "hashtag7"
## [8] "hashtag8"
## [9] "hashtag9"
или некоторые кодировки дают этот результат
## [1] "????????????_??????????????????" "????????_??????????????"
## [3] "??????" "??????"
## [5] "????????????" "???"
## [7] "hashtag7" "hashtag8"
## [9] "hashtag9"
Есть ли способ добавить другие кодировки в RStudio, чтобы различные языки правильно отображались в связанном HTML-документе.
Спасибо