Question

У меня есть следующий php-код в php-файле utf-8:

var_dump(setlocale(LC_CTYPE, 'de_DE.utf8', 'German_Germany.utf-8', 'de_DE', 'german'));
var_dump(mb_internal_encoding());
var_dump(mb_internal_encoding('utf-8'));
var_dump(mb_internal_encoding());
var_dump(mb_regex_encoding());
var_dump(mb_regex_encoding('utf-8'));
var_dump(mb_regex_encoding());
var_dump(preg_replace('/\bweiß\b/iu', 'weiss', 'weißbier'));

Я бы хотел, чтобы последнее регулярное выражение заменяло только полные слова, а не части слов.

На моем компьютере с Windows он возвращает:

string 'German_Germany.1252' (length=19)
string 'ISO-8859-1' (length=10)
boolean true
string 'UTF-8' (length=5)
string 'EUC-JP' (length=6)
boolean true
string 'UTF-8' (length=5)
string 'weißbier' (length=9)

На веб-сервере (Linux) я получаю:

string(10) "de_DE.utf8"
string(10) "ISO-8859-1"
bool(true)
string(5) "UTF-8"
string(10) "ISO-8859-1"
bool(true)
string(5) "UTF-8"
string(9) "weissbier"

Таким образом, регулярное выражение работает, как я ожидал, в Windows, но не в Linux.

Итак, главный вопрос: как мне написать свое регулярное выражение, чтобы оно соответствовало только границам слов?

Второстепенный вопрос - как я могу сообщить Windows, что я хочу использовать utf-8 в своем приложении php.

Alan Moore · Answer 1 · 15 марта 2010

Даже в режиме UTF-8 стандартные сокращения класса, такие как \w и \b, не поддерживают Unicode. Вы просто должны использовать сокращения Unicode, как вы уже работали, но вы можете сделать его немного менее уродливым, используя обходные пути вместо чередований:

/(?<!\pL)weiß(?!\pL)/u

Обратите внимание, как я оставил фигурные скобки из сокращений класса Unicode; Вы можете сделать это, когда имя класса состоит из одной буквы.

bobble bubble · Answer 2 · 10 декабря 2016

Думаю, это было связано с Ошибка # 52971

PCRE-мета-символы, такие как \b \w, не работают со строками Unicode.

и исправлено в PHP 5.3.4

Расширение PCRE: Исправлена ошибка # 52971 ( PCRE-мета-символы, не работающие с utf-8 ).

tomsv · Answer 3 · 12 марта 2010

вот что я нашел до сих пор. Переписав шаблоны поиска и замены следующим образом:

$before = '(^|[^\p{L}])';
$after = '([^\p{L}]|$)';
var_dump(preg_replace('/'.$before.'weiß'.$after.'/iu', '$1weiss$2', 'weißbier'));
// Test some other cases:
var_dump(preg_replace('/'.$before.'weiß'.$after.'/iu', '$1weiss$2', 'weiß'));
var_dump(preg_replace('/'.$before.'weiß'.$after.'/iu', '$1weiss$2', 'weiß bier'));
var_dump(preg_replace('/'.$before.'weiß'.$after.'/iu', '$1weiss$2', ' weiß'));

Я получаю желаемый результат:

string 'weißbier' (length=9)
string 'weiss' (length=5)
string 'weiss bier' (length=10)
string ' weiss' (length=6)

как на моем компьютере с Windows, на котором работает Apache, так и на размещенном веб-сервере Linux, работающем с Apache.

Полагаю, есть лучший способ сделать это.

Кроме того, я все еще хотел бы установить локальный компьютер с windows на utf-8.

ntd · Answer 4 · 14 марта 2010

Согласно этому комментарию , это ошибка в PHP. Дает ли использование \W вместо \b какую-либо выгоду?

Соответствие границ в регулярных выражениях php в utf-8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Соответствие границ в регулярных выражениях php в utf-8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы