Я занимаюсь анализом настроений и, во-первых, мне нужно очистить текстовые данные. В некоторых текстах есть китайский, тагальский, и я сейчас пытаюсь перевести их на английский. Но до сих пор все китайские символы в этом файле данных имеют представление Unicode, например:
<U+5C16>
, с которой невозможно справиться, используя путь кодирования и декодирования Python. Поэтому я хочу преобразовать этот тип шаблона в:
\u5c16
Тогда я думаю, что мы могли бы использовать следующий код, чтобы получить китайские иероглифы, которые я хочу:
text.encode('latin-1').decode('unicode_escape')
Итак, вопрос в том, как использовать регулярное выражение для преобразования <U+5C16>
в \u5c16
?
Большое спасибо!
Обновление: я думаю, что самое сложное в том, что мне нужно, чтобы часть 5c16
в \u5c16
была эквивалентна строчной букве 5C16
в <U+5C16>
. И в моем наборе данных социальных сетей больше всего я вижу текстовые данные, подобные следующим:
<U+5C16><U+6C99><U+5480><U+9418><U+6A13>
Если бы я мог преобразовать приведенный выше текст в '\u5c16\u6c99\u5480\u9418\u6a13'
и распечатать его на Python, я мог бы получить то, что мне действительно нужно:
尖沙咀鐘樓
Но как я мог это сделать? Будем благодарны за любые идеи и подсказки!