Чтение HTML-сущностей - PullRequest
       40

Чтение HTML-сущностей

1 голос
/ 10 июля 2019

Использование пакета xml2 в R преобразует сущности HTML в символы Юникода:

xml2::read_html("<html> This is a dash &#8211;  <html>")
# {xml_document}
# <html>
# [1] <body><p> This is a dash \u2013  </p></body>

Я бы хотел сохранить HTML-сущности, потому что, если позже я использую pandoc для преобразования HTML в LaTeX, \u2013 удаляется, а &#8211; правильно преобразуется в --.

Как мне этого добиться?

Редактировать

Я в Linux R 3.6.1 - Пакет xml2 1.2.0

1 Ответ

0 голосов
/ 10 июля 2019

Не реальное решение, но обходной путь:

Sys.setenv(LANG="en_US.UTF-8")
xml2::read_html("<html> This is a dash &#8211;  <html>")  
# {xml_document}
# <html>
# [1] <body><p> This is a dash –  </p></body>

Обратите внимание, я все еще теряю сущность HTML, но вывод правильный и соответствует выводу Windows (на основе опубликованных комментариев).

Исправление работает, только если я запускаю R в моем эмуляторе терминала.Если я запускаю R в Emacs, я получаю \u2013.

...