Проблема кодирования: конвертировать байты в китайские символы в R - PullRequest
0 голосов
/ 25 марта 2020

Я читаю из файла html в R, который содержит китайские символы. Но он показывает что-то вроде

"    <td class=\"forumCell\"><a href=\"#\" onClick=\"if(confirm('\xc4\xe3\u0237\xd0\xc5Ҫ\xbbָ\xb4\xb8\xc3\xce\xc4\xd5\xc2\xc2\xf0\xa3\xbf')){location.href='articleBakAdmin.php?action=restore&articleID=120516';}\">\xbbָ\xb4</a></td>"

Это строки "\ x", которые мне нужно извлечь. Как я могу преобразовать их в читаемые китайские иероглифы?

Кстати, просто скопировать и вставить вышеуказанные строки \ x не будет повторять проблему.

1 Ответ

0 голосов
/ 25 марта 2020

Вы уверены, что все они китайские иероглифы? что такое кодировка страницы html? вставленные вами строки выглядят как смесь шестнадцатеричных \xc4\xe3 и символов Юникода \u0237.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...