Question

Мне нужен механизм регулярных выражений, который поддерживает необработанный UTF-8 - то есть строка UTF-8 хранится в char * как два символа (или один, или меньше) - например, Ab - это массив {0x41,0x62 }. Кто-нибудь знает о движке регулярных выражений, который может получить этот формат? Я могу сначала преобразовать в wchar_t, если это необходимо.

Benoît · Answer 1 · 24 апреля 2009

Эта страница говорит о том, что это возможно с Boost.Regex при условии, что вы настраиваете и используете Библиотека ICU .

lothar · Answer 2 · 24 апреля 2009

Работа с непостоянной длиной символов в UTF-8 очень усложняет создание алгоритмов (например, регулярных выражений).

Лучше преобразовать строку utf-8 в строку типа Unicode с ICU , а затем использовать вариант wstring boost :: regex

majkinetor · Answer 3 · 24 апреля 2009

Текущая реализация PCRE (версия 7.x) соответствует примерно в основном с Perl 5.10, включая поддержку кодировки UTF-8 струны и Свойства общей категории Unicode. Тем не менее, UTF-8 и Unicode служба поддержки должен быть явно включен; это не по умолчанию. Юникод таблицы соответствуют версии Unicode 5.1.

Механизм регулярных выражений, который поддерживает UTF-8?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Механизм регулярных выражений, который поддерживает UTF-8?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов