Как декодировать формат данных «Ð¡Ð²ÐµÑ € д ...» (название региона в России) в файл .csv на английский в R? - PullRequest
0 голосов
/ 27 апреля 2018

Я работаю над проектом по машинному обучению. Когда я загружаю файл .csv, некоторые функции имеют значения в неизвестном формате. Что-то вроде СвердловÑÐºÐ°Ñ Ð¾Ð±Ð»Ð°ÑÑ‚ÑŒ и Личные вещÐ. Они представляют названия регионов в России. Может кто-нибудь сказать мне, как преобразовать их в плоскую английскую в R? Я пытался сделать следующее:

df <- read.csv(file.choose(), sep = ',', header = TRUE, encoding = "russian", 
stringsAsFactors = FALSE)

Не работает

Пример данных:

| region | City |
|---|---|
| ÐижегородÑÐºÐ°Ñ Ð¾Ð±Ð»Ð°ÑÑ‚ÑŒ | КраÑнодар |
| ВоронежÑÐºÐ°Ñ Ð¾Ð±Ð»Ð°ÑÑ‚ÑŒ | ЧелÑбинÑк |
| ÐижегородÑÐºÐ°Ñ Ð¾Ð±Ð»Ð°ÑÑ‚ÑŒ | Воронеж |
| ÐижегородÑÐºÐ°Ñ Ð¾Ð±Ð»Ð°ÑÑ‚ÑŒ | КраÑнодар |
| КраÑноÑÑ€Ñкий край | Самара |
| РоÑтовÑÐºÐ°Ñ Ð¾Ð±Ð»Ð°ÑÑ‚ÑŒ | Тюмень |
...