Как установить кодировку символов по умолчанию в R на Windows? - PullRequest
0 голосов
/ 26 февраля 2020

Я новичок в этом сайте, и я активно использую R в расчетах моей магистерской диссертации. Я работаю с русскими данными и должен много обрабатывать русские буквы кириллицы c, но на Windows проблема в том, что он не кодирует символы в UTF-8 по умолчанию. Позвольте мне показать вам пример:

Sys.setlocale(locale="Russian")
Encoding(c("Руссгрэйн Холдинг","Сбербанк","Русал","Магнит","Северсталь"))

В качестве результата вы получите «неизвестно».

Это проблема для меня, потому что многие функции пакета stringr не будут работать.

Какие обходные пути я пробовал:

1) Двойная загрузка с Linux Монетный двор как на linux Я могу работать с буквами кириллицы c сразу, не устанавливая языковой стандарт et c ..

2) Что касается исключительно Windows решения, я могу установить * 1012 вручную * каждый раз при работе со строками, но это утомительно и требует дополнительных операций.

В общем, я хотел бы получить решение в windows, где я мог бы сразу ввести кодировку utf8, чтобы я мог нет необходимости каждый раз использовать enc2utf8.

Нет никаких вопросов относительно stackoverflow, непосредственно решающего мою проблему (в основном они касаются импорта таблиц данных с символами в кодировке utf-8, что не в моем случае).

1 Ответ

0 голосов
/ 27 февраля 2020

На данный момент лучшим вариантом для Windows 10 является использование enc2native каждый раз при работе со строками в кодировке UTF-8. Это также будет полезно в случае активного использования программы просмотра RStudio. Например, программа просмотра сортирует столбец в кодировке UTF-8 за 10 секунд, а если столбец изначально закодирован, ему удается отсортировать весь столбец всего за 2 секунды (таблица с +200000 строк).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...