Question

У меня есть строковый текст в Юникоде, содержащий некоторые цифры, как показано ниже:

txt = '３６fsdfdsf１４'

Однако int(txt[:2]) не распознает символы как числа.Как изменить символы, чтобы они распознавались как числа?

Mark Tolonen · Answer 1 · 08 июня 2018

Если у вас действительно есть Unicode (или вы расшифровываете свою байтовую строку в Unicode), то вы можете нормализовать данные с помощью канонической замены:

>>> s = u'３６fsdfdsf１４'
>>> s
u'\uff13\uff16fsdfdsf\uff11\uff14'
>>> import unicodedata as ud
>>> ud.normalize('NFKC',s)
u'36fsdfdsf14'

Если каноническая нормализация слишком сильно изменится для вас, вы можете сделатьтаблица перевода нужных вам замен:

#coding:utf8

repl = u'0123456789'

# Fullwidth digits are U+FF10 to U+FF19.
# This makes a lookup table from Unicode ordinal to the ASCII character equivalent.
xlat = dict(zip(range(0xff10,0xff1a),repl))

s = u'３６fsdfdsf１４'

print(s.translate(xlat))

Вывод:

36fsdfdsf14

sardok · Answer 2 · 08 июня 2018

На python 3

[int(x) for x in re.findall(r'\d+', '３６fsdfdsf１４')]
# [36, 14]

На python 2

[int(x) for x in re.findall(r'\d+', u'３６fsdfdsf１４', re.U)]
# [36, 14]

О примере с python 2 обратите внимание на 'u' перед строкой и флаг re.U.Вы можете преобразовать существующую str типизированную переменную, такую как txt в вашем вопросе, в Unicode как txt.decode('utf8').

Преобразование символов Юникод полной ширины в символы ASCII

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Преобразование символов Юникод полной ширины в символы ASCII

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы