Question

Короче говоря:

>>> re.compile(r"\w*").match(u"Français")
<_sre.SRE_Match object at 0x1004246b0>
>>> re.compile(r"^\w*$").match(u"Français")
>>> re.compile(r"^\w*$").match(u"Franais")
<_sre.SRE_Match object at 0x100424780>
>>>

Почему она не соответствует строке с символами Юникода с ^ и $ в регулярном выражении? Насколько я понимаю, ^ обозначает начало строки (строки), а $ - ее конец.

kennytm · Answer 1 · 31 августа 2010

Вам необходимо указать флаг UNICODE , в противном случае \w эквивалентен [a-zA-Z0-9_], который не включает символ 'ç'.

>>> re.compile(r"^\w*$", re.U).match(u"Fran\xe7ais")
<_sre.SRE_Match object at 0x101474168>

Python регулярное выражение с ошибкой символов Unicode?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python регулярное выражение с ошибкой символов Unicode?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы