UTF-8 проблемы с форматированием в R - PullRequest
0 голосов
/ 18 апреля 2020

Я пытаюсь преобразовать файл Markdown в файл .docx с помощью pando c. К сожалению, это горько и упорно жалуется на его формат не будучи "UTF-8":

1002 *enter image description here 1007 * При создании файла Markdown, я использую текст -данные из файла Excel, написанные на английском языке sh. Два столбца кодируются в «неизвестном» формате в соответствии с «Кодировкой» согласно Как идентифицировать / удалить символы не-UTF-8 в R . Смотрите пример вектора для одного из столбцов (с категориями данных) ниже:
exampleVector
 [1] "other wards"  "organisation" "other wards"  "Trystview"    "break"        "other wards" 
 [7] "Trystview"    "other"        "break"        "other"  

exampleVector %>% Encoding()
 [1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"

exampleVector %>% dput()
c("other wards", "organisation", "other wards", "Trystview", 
"break", "other wards", "Trystview", "other", "break", "other"
)

Я испробовал все предложения по Как идентифицировать / удалить символы не-UTF-8 в R и Принудительно переводит векторное кодирование символов из «неизвестного» в «UTF-8» в R , включая команды из библиотеки «stringi» для преобразования указанного вектора в формат «UTF-8». Я не уверен, что мне не хватает, и мне интересно, почему формат довольно обыденного файла Excel создает такие проблемы для pando c. Я использовал read_excel из библиотеки «readxl» для импорта данных Excel. Буду благодарен за любые предложения.

1 Ответ

1 голос
/ 18 апреля 2020

Я нашел ответ на мои разочарования! Мне только нужно было добавить параметр encoding = "UTF-8" в строки, определяющие создание файла Markdown в коде R:

fileConn <- file("C:/projects/use of time/report1.md", encoding = "UTF-8")
close(fileConn)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...