Найти первый символ, который отличается между двумя строками - PullRequest
68 голосов
/ 19 сентября 2011

Учитывая две строки равной длины, существует ли элегантный способ получить смещение первого другого символа?

Очевидное решение будет:

for ($offset = 0; $offset < $length; ++$offset) {
    if ($str1[$offset] !== $str2[$offset]) {
        return $offset;
    }
}

Но для такой простой задачи это выглядит не совсем правильно.

Ответы [ 4 ]

172 голосов
/ 19 сентября 2011

Вы можете использовать красивое свойство побитовое XOR (^) для достижения этого: в основном, когда вы xor две строки вместе, одинаковые символы станут нулевыми байтами ("\0" ). Поэтому, если мы xor двух строк, нам просто нужно найти позицию первого ненулевого байта, используя strspn:

$position = strspn($string1 ^ $string2, "\0");

Это все, что нужно сделать. Итак, давайте посмотрим на пример:

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$pos = strspn($string1 ^ $string2, "\0");

printf(
    'First difference at position %d: "%s" vs "%s"',
    $pos, $string1[$pos], $string2[$pos]
);

Будет выведено:

Первое различие в позиции 7: "a" против "i"

Так что это должно сделать это. Это очень эффективно, так как он использует только функции C и требует только одну копию памяти строки.

Редактировать: решение MultiByte по тем же линиям:

function getCharacterOffsetOfDifference($str1, $str2, $encoding = 'UTF-8') {
    return mb_strlen(
        mb_strcut(
            $str1,
            0, strspn($str1 ^ $str2, "\0"),
            $encoding
        ),
        $encoding
    );
}

Сначала с помощью вышеуказанного метода определяется разница на уровне байтов, а затем смещение отображается на уровне символов. Это делается с помощью функции mb_strcut, которая в основном substr, но учитывает границы многобайтовых символов.

var_dump(getCharacterOffsetOfDifference('foo', 'foa')); // 2
var_dump(getCharacterOffsetOfDifference('©oo', 'foa')); // 0
var_dump(getCharacterOffsetOfDifference('f©o', 'fªa')); // 1

Это не так элегантно, как первое решение, но это все же однострочный (и если вы используете кодировку по умолчанию немного проще):

return mb_strlen(mb_strcut($str1, 0, strspn($str1 ^ $str2, "\0")));
16 голосов
/ 04 октября 2011

Если вы преобразуете строку в массив однобайтовых символов из одного символа, вы можете использовать функции сравнения массивов для сравнения строк.

Результат, аналогичный методу XOR, можно получить с помощью следующего.

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';

$array1 = str_split($string1);
$array2 = str_split($string2);

$result = array_diff_assoc($array1, $array2);

$num_diff = count($result);
$first_diff = key($result);

echo "There are " . $num_diff . " differences between the two strings. <br />";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.";

Редактировать: Многобайтовое решение

$string1 = 'foorbarbaz';
$string2 = 'foobarbiz';

$array1 = preg_split('((.))u', $string1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
$array2 = preg_split('((.))u', $string2, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);

$result = array_diff_assoc($array1, $array2);

$num_diff = count($result);
$first_diff = key($result);

echo "There are " . $num_diff . " differences between the two strings.\n";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.\n";
4 голосов
/ 14 января 2012

Я хотел бы добавить это как комментарий к лучшему ответу, но мне не хватает очков.

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$pos = strspn($string1 ^ $string2, "\0");

if ($pos < min(strlen($string1), strlen($string2)){
    printf(
        'First difference at position %d: "%s" vs "%s"',
        $pos, $string1[$pos], $string2[$pos]
    );
} else if ($pos < strlen($string1)) {
    print 'String1 continues with' . substr($string1, $pos);
} else if ($pos < strlen($string2)) {
    print 'String2 continues with' . substr($string2, $pos);
} else {
    print 'String1 and String2 are equal';
}
0 голосов
/ 06 октября 2011
string strpbrk ( string $haystack , string $char_list )

strpbrk () ищет строку сена для char_list.

Возвращаемое значение - это подстрока $ haystack, которая начинается с первого соответствующего символа. В качестве функции API он должен быть быстрым. Затем выполните цикл один раз, ища нулевое смещение возвращаемой строки, чтобы получить смещение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...