R Проблемы с кодированием в пакете XML - PullRequest
0 голосов
/ 28 сентября 2018

Я читаю файлы XML в R, но я борюсь с проблемами кодирования utf8 и некоторыми тегами HTML.Вот минимальный XML-файл:

<?xml version="1.0" encoding="UTF-8"?>
    <CV id="Z1" lang="de">
        <variable label="ür">xxx</variable>
        <value label="x">text → x</value>
    </CV>

Я хочу прочитать XML-файл в структуру списка в R. Поэтому я использую функцию xmlToList из пакета XML.Это мой скрипт для чтения файла, сохраненного в xmlPath.

library(XML)
xml.str =  XML::xmlInternalTreeParse(xmlPath,  encoding="UTF-8")
res = XML::xmlToList(xml.str)

Проблема в том, что умлауты на немецком языке как "ü" не отображаются правильно, как вы видите здесь:

p1 = res$variable$.attrs["label"] # problem 1
p1

> label 
> "ür"

Следующая проблема - теги HTML.Они правильно выводятся на консоль в Rstudio:

p2 = res$value$text # problem 2
p2

> [1] "text → x"

Но при экспорте в csv он сохраняется как

text <U+2192> x

Поэтому я хотел бы удалить эти теги HTML между <и>, но я не могу получить к ним доступ в R.

Любая помощь приветствуется:)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...