Question

Я читаю из файла html в R, который содержит китайские символы. Но он показывает что-то вроде

"    <td class=\"forumCell\"><a href=\"#\" onClick=\"if(confirm('\xc4\xe3\u0237\xd0\xc5Ҫ\xbbָ\xb4\xb8\xc3\xce\xc4\xd5\xc2\xc2\xf0\xa3\xbf')){location.href='articleBakAdmin.php?action=restore&articleID=120516';}\">\xbbָ\xb4</a></td>"

Это строки "\ x", которые мне нужно извлечь. Как я могу преобразовать их в читаемые китайские иероглифы?

Кстати, просто скопировать и вставить вышеуказанные строки \ x не будет повторять проблему.

kjchoo · Answer 1 · 25 марта 2020

Вы уверены, что все они китайские иероглифы? что такое кодировка страницы html? вставленные вами строки выглядят как смесь шестнадцатеричных \xc4\xe3 и символов Юникода \u0237.

Проблема кодирования: конвертировать байты в китайские символы в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Проблема кодирования: конвертировать байты в китайские символы в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов