Неправильная кодировка при загрузке данных JSON в R - PullRequest
0 голосов
/ 19 сентября 2018

Я пытаюсь создать корпус слов на основе моего фрейма данных, который был загружен из файла JSON.При этом R не видит специальных знаков, таких как «ř» (в исходных данных json это видно и кодировка - utf-8).Я пытался кодировать в R с редактором исходного кода и Encoding (x), но ни один из них не работает.Я хотел бы изменить знаки латинскими буквами.Например, ř -> r, но функция r с использованием gsub полностью уничтожает мой фрейм данных.У вас есть идеи как это решить?

#JSON file contains name with "ř", after loading data I get <f8> even though I choose encoding of source file
data5 <- fromJSON(file = "Test1801.json")
data6 <- as.data.frame(data5)
data6 <- tolower(data6)   #This and gsub change whole data frame to character values "1"
data6 <- gsub("ř", "r", data6)

1 Ответ

0 голосов
/ 29 сентября 2018

Добро пожаловать на SO.Пожалуйста, имейте в виду, что вы должны предоставить воспроизводимый пример, чтобы мы могли работать над вашей проблемой.

Я понимаю, что вы ищете способ изменить символы на латинские буквы.Это может быть достигнуто с помощью stringi::stri_trans_general:

require(stringi) # load library

a <- "ř" # assign your weird character to variable

newA <- stri_trans_general(a, "latin-ascii") # convert to latin 

newA
> "r"

Если вы найдете этот ответ полезным, пожалуйста, пометьте его как таковой, отметив галочкой отметку под голосованием.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...