Проблемы с кодированием всегда болезненны. Вот что я пытаюсь сделать:
Пример данных test.txt
:
Surname;Name
Şahin;Pakiz
Köpke;Marti
Я прочитал в (кодированном UTF-8) файле, используя
test <- fread(dec = ",", header = T, sep = ";", colClasses = "character", fill = T, encoding = "UTF-8", ...)
Когда я показываю данные, я получаю следующее
> test
Surname Name
1: Sahin Pakiz
2: Köpke Minna
, и когда я хочу получить только Surname
, я получаю
> test$Surname
[1] "Şahin" "Köpke"
, который до сих пор отображается правильно.
Теперь я хочу записать таблицу в свою базу данных SQL, используя
dplyr::copy_to(con, df=test, name="TestTable",
temporary = FALSE, types=rep("nvarchar(MAX)", ncol(dt)))
, что в базе данных дает
Я предположил, что строки в кодировке UTF-8 подойдут для серверов MS SQL. Я ошибался. Я не уверен, где мне нужно внести изменения. Но давайте предположим, что данные всегда доставляются в кодировке UTF-8.
Есть идеи, с чего начать?