Я читаю файлы XML в R, но я борюсь с проблемами кодирования utf8 и некоторыми тегами HTML.Вот минимальный XML-файл:
<?xml version="1.0" encoding="UTF-8"?>
<CV id="Z1" lang="de">
<variable label="ür">xxx</variable>
<value label="x">text → x</value>
</CV>
Я хочу прочитать XML-файл в структуру списка в R. Поэтому я использую функцию xmlToList из пакета XML.Это мой скрипт для чтения файла, сохраненного в xmlPath.
library(XML)
xml.str = XML::xmlInternalTreeParse(xmlPath, encoding="UTF-8")
res = XML::xmlToList(xml.str)
Проблема в том, что умлауты на немецком языке как "ü" не отображаются правильно, как вы видите здесь:
p1 = res$variable$.attrs["label"] # problem 1
p1
> label
> "ür"
Следующая проблема - теги HTML.Они правильно выводятся на консоль в Rstudio:
p2 = res$value$text # problem 2
p2
> [1] "text → x"
Но при экспорте в csv он сохраняется как
text <U+2192> x
Поэтому я хотел бы удалить эти теги HTML между <и>, но я не могу получить к ним доступ в R.
Любая помощь приветствуется:)