Question

У меня есть preg_match_all('/[aäeëioöuáéíóú]/u', $in, $out, PREG_OFFSET_CAPTURE);

Если $in = 'hëllo' $out равно:

array(1) {
[0]=>
  array(2) {
  [0]=>
    array(2) {
      [0]=>
      string(2) "ë"
  [1]=>
  int(1)
}
[1]=>
array(2) {
  [0]=>
  string(1) "o"
  [1]=>
  int(5)
  }
}
}

Позиция o должна быть 4. Я читал об этой проблеме онлайн(ë считается как 2).Есть ли решение для этого?Я видел mb_substr и подобные, но есть ли что-то подобное для preg_match_all?

Вид связанных: это эквивалент preg_match_all в Python?(Возвращает массив совпадений с их положением в строке)

Artefacto · Answer 1 · 08 августа 2010

Это не ошибка, PREG_OFFSET_CAPTURE относится к байтовому смещению символа в строке.

mb_ereg_search_pos ведет себя так же. Одна возможность состоит в том, чтобы изменить кодировку до UTF-32 до и затем разделить позицию на 4 (потому что все единицы кода Unicode представлены как 4-байтовые последовательности в UTF-32):

mb_regex_encoding("UTF-32");
$string = mb_convert_encoding('hëllo', "UTF-32", "UTF-8");
$regex =  mb_convert_encoding('[aäeëioöuáéíóú]', "UTF-32", "UTF-8");
mb_ereg_search_init ($string, $regex);
$positions = array();
while ($r = mb_ereg_search_pos()) {
    $positions[] = reset($r)/4;
}
print_r($positions);

дает:

Array
(
    [0] => 1
    [1] => 4
)

Вы также можете преобразовать двоичные позиции в позиции кодовых единиц. Для UTF-8 неоптимальная реализация:

function utf8_byte_offset_to_unit($string, $boff) {
    $result = 0;
    for ($i = 0; $i < $boff; ) {
        $result++;
        $byte = $string[$i];
        $base2 = str_pad(
            base_convert((string) ord($byte), 10, 2), 8, "0", STR_PAD_LEFT);
        $p = strpos($base2, "0");
        if ($p == 0) { $i++; }
        elseif ($p <= 4) { $i += $p; }
        else  { return FALSE; }
    }
    return $result;
}

Николай Конев · Answer 2 · 27 февраля 2014

Существует простой обходной путь, который следует использовать после сопоставления результатов preg_match ().Вам нужно перебрать каждый результат матча и переназначить значение позиции следующим образом:

$utfPosition = mb_strlen(substr($wholeSubjectString, 0, $capturedEntryPosition), 'utf-8');

Проверено на php 5.4 под Windows, зависит только от многобайтового расширения PHP.

revoke · Answer 3 · 19 ноября 2014

Другой способ разделить UTF-8 $string по регулярному выражению - использовать функцию preg_split(). Вот мое рабочее решение:

    $result = preg_split('~\[img/\d{1,}/img\]\s?~', $string, -1, PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE);

PHP 5.3.17

Tor Valamo · Answer 4 · 03 февраля 2010

PHP не очень хорошо поддерживает юникод, поэтому многие строковые функции, включая preg_ *, по-прежнему считают байты вместо символов.

Я пытался найти решение путем кодирования и декодирования строк, но в конечном итоге этовсе сводилось к функции preg_match_all.

Об элементе python: математический объект регулярного выражения python по умолчанию содержит позицию соответствия mo.start () и mo.end ().Смотри: http://docs.python.org/library/re.html#finding-all-adverbs-and-their-positions

UTF-8 символов в preg_match_all (PHP)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

UTF-8 символов в preg_match_all (PHP)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы