Как получить правильную позицию списка в многобайтовой строке, используя preg_match - PullRequest
2 голосов
/ 31 марта 2012

Я в настоящее время сопоставляю HTML, используя этот код:

preg_match('/<\/?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;/u', $html, $match, PREG_OFFSET_CAPTURE, $position)

Он соответствует всему идеальному, однако если у меня многобайтовый символ, он возвращает его как 2 символа при возврате позиции.

Например, возвращенный массив $match будет давать что-то вроде:

array
  0 => 
    array
      0 => string '<br />' (length=6)
      1 => int 132
  1 => 
    array
      0 => string 'br' (length=2)
      1 => int 133

Реальное число для совпадения <br /> - 128, но есть 4 многобайтовых символа, поэтому оно дает 132. Я действительнодумал, что добавление модификатора / u поможет понять, что происходит, но не повезло.

Ответы [ 3 ]

3 голосов
/ 02 апреля 2012

Я посмотрел на это предложение из @Qtax:

UTF-8 символов в preg_match_all (PHP)

И для некоторых других ссылок эта ошибка появилась приthis: Сокращенный текст, содержащий HTML, игнорируя теги

Суть изменения заключается в следующем:

$orig_utf = 'UTF-8';
$new_utf  = 'UTF-32';

mb_regex_encoding( $new_utf );

$html     = mb_convert_encoding( $html, $new_utf, $orig_utf );
$end_char = mb_convert_encoding( $end_char, $new_utf, $orig_utf );


mb_ereg_search_init( $html );

$pattern = '</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;';
$pattern = mb_convert_encoding( $pattern, $new_utf, $orig_utf );

while ( $printed < $limit && $tag_match = mb_ereg_search_pos( $pattern, $html ) ) {

  $tag_position = $tag_match[0]/4;
  $tag_length   = $tag_match[1];
  $tag          = mb_substr( $html, $tag_position, $tag_length/4, $new_utf );
  $tag_name     = preg_replace( '/[\s<>\/]+/', '', $tag );

  // Print text leading up to the tag.
  $str = mb_substr($html, $position, $tag_position - $position, $new_utf );

  .......

} 

Также в отношении усеченной HTML-страницы есть и другиенеобходимые изменения:

$first_char = mb_substr( $tag, 0, 1, $new_utf );

if ( $first_char == mb_convert_encoding( '&', $new_utf ) ) {
  ...
}

Мой текстовый редактор - UTF-8, поэтому, если бы я сравнивал 32 с амперсандом моего файла, он бы не работал.

2 голосов
/ 10 ноября 2012

Если вам нужно быстро исправить и не беспокоиться о скорости:

$mb_pos = mb_strlen( substr($string, 0, $pos) );
0 голосов
/ 31 марта 2012
...