Нормализовать русские символы в R - PullRequest
0 голосов
/ 29 апреля 2018

У меня есть датафрейм таких регионов и городов России, как этот.

    >df                                                                                                                                                    
    russian_region
1          <U+0421><U+0432><U+0435><U+0440><U+0434><U+043B><U+043E><U+0432><U+0441><U+043A><U+0430><U+044F> <U+043E><U+0431><U+043B><U+0430><U+0441><U+0442><U+044C>
2                                  <U+0421><U+0430><U+043C><U+0430><U+0440><U+0441><U+043A><U+0430><U+044F> <U+043E><U+0431><U+043B><U+0430><U+0441><U+0442><U+044C>
3                          <U+0420><U+043E><U+0441><U+0442><U+043E><U+0432><U+0441><U+043A><U+0430><U+044F> <U+043E><U+0431><U+043B><U+0430><U+0441><U+0442><U+044C>
4                                                                                           <U+0422><U+0430><U+0442><U+0430><U+0440><U+0441><U+0442><U+0430><U+043D>
5  <U+0412><U+043E><U+043B><U+0433><U+043E><U+0433><U+0440><U+0430><U+0434><U+0441><U+043A><U+0430><U+044F> <U+043E><U+0431><U+043B><U+0430><U+0441><U+0442><U+044C>
6                                                                                           <U+0422><U+0430><U+0442><U+0430><U+0440><U+0441><U+0442><U+0430><U+043D>
7  <U+041D><U+0438><U+0436><U+0435><U+0433><U+043E><U+0440><U+043E><U+0434><U+0441><U+043A><U+0430><U+044F> <U+043E><U+0431><U+043B><U+0430><U+0441><U+0442><U+044C>
8                                                                  <U+041F><U+0435><U+0440><U+043C><U+0441><U+043A><U+0438><U+0439> <U+043A><U+0440><U+0430><U+0439>
9          <U+041E><U+0440><U+0435><U+043D><U+0431><U+0443><U+0440><U+0433><U+0441><U+043A><U+0430><U+044F> <U+043E><U+0431><U+043B><U+0430><U+0441><U+0442><U+044C>
10 <U+041D><U+0438><U+0436><U+0435><U+0433><U+043E><U+0440><U+043E><U+0434><U+0441><U+043A><U+0430><U+044F> <U+043E><U+0431><U+043B><U+0430><U+0441><U+0442><U+044C>
                                                                                                                russian_city
1                           <U+0415><U+043A><U+0430><U+0442><U+0435><U+0440><U+0438><U+043D><U+0431><U+0443><U+0440><U+0433>
2                                                                           <U+0421><U+0430><U+043C><U+0430><U+0440><U+0430>
3                         <U+0420><U+043E><U+0441><U+0442><U+043E><U+0432>-<U+043D><U+0430>-<U+0414><U+043E><U+043D><U+0443>
4  <U+041D><U+0430><U+0431><U+0435><U+0440><U+0435><U+0436><U+043D><U+044B><U+0435> <U+0427><U+0435><U+043B><U+043D><U+044B>
5                                                   <U+0412><U+043E><U+043B><U+0433><U+043E><U+0433><U+0440><U+0430><U+0434>
6                                                   <U+0427><U+0438><U+0441><U+0442><U+043E><U+043F><U+043E><U+043B><U+044C>
7          <U+041D><U+0438><U+0436><U+043D><U+0438><U+0439> <U+041D><U+043E><U+0432><U+0433><U+043E><U+0440><U+043E><U+0434>
8                                                                                   <U+041F><U+0435><U+0440><U+043C><U+044C>
9                                                           <U+041E><U+0440><U+0435><U+043D><U+0431><U+0443><U+0440><U+0433>
10         <U+041D><U+0438><U+0436><U+043D><U+0438><U+0439> <U+041D><U+043E><U+0432><U+0433><U+043E><U+0440><U+043E><U+0434>

Я не знаю, почему я вижу символы UTF-8, как указано выше, тогда как когда я вижу

DF $ russian_city

, я вижу имена на русском

> df$russian_region
 [1] "Свердловская область"  "Самарская область"     "Ростовская область"    "Татарстан"             "Волгоградская область" "Татарстан"             "Нижегородская область" "Пермский край"        
 [9] "Оренбургская область"  "Нижегородская область"

Что-то не так с настройками моего окружения, что мой сеанс R не может прочитать русские символы и как мне с этим справиться?

1 Ответ

0 голосов
/ 30 апреля 2018

У меня также было множество проблем с загрузкой базы данных. Я попробовал методы, используемые в этом ноутбуке , и тот не сработал. Поэтому я сдался и просто изменил язык на русский, и теперь все работает. Если другие ответы не работают, попробуйте этот.

Sys.setlocale(category = "LC_ALL", locale = "Russian")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...