R как читать или заменить испанские специальные символы - PullRequest
0 голосов
/ 27 июня 2019

Я хочу использовать данные из набора данных здесь .Это из набора данных на испанском языке, из Перу, я думаю.Его можно скачать в нескольких форматах, но все они, похоже, имеют одну и ту же проблему.Вот пример проблемы - maÌ_z.Это должно быть maíz.Моей первой мыслью было, что есть проблема с кодировкой шрифтов.Но я попробовал несколько вариантов кодировки шрифтов, которые иногда используются для документов на испанском языке (например, UTF-8, WINDOWS-1252, ISO-8859-1) с использованием опции RStudio Reopen with Encoding.Для некоторых из них представление символов меняется, но не на соответствующее í.Некоторые другие примеры Cimarr?_n, c??scara, m??shka.Я думаю, что могу сделать поиск и замену, но предпочел бы найти исправление кодировки.

1 Ответ

0 голосов
/ 27 июня 2019

Вы пытались напрямую использовать аргумент encoding в функции read()?Вот пример:

dt <- read.csv("dt", header = TRUE, sep = ",", dec = ".",
                     comment.char = "", strip.white = TRUE,
                     stringsAsFactors = TRUE, encoding="UTF-8")

Когда я использую французские данные, я должен сделать это следующим образом.

Возможно, оригинальный файл не был закодирован в UTF-8, поэтому вы можетеслишком закодируйте его перед прочтением.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...