Эй, Дейв, ты никогда не увидишь этого одного пришествия.
php > $kanji = '漢漢漢字漢字私私字私字漢字私漢字漢字私';
php > $not_kanji = 'aaabcccbbc';
php > $pattern = '/(.)\1+/u';
php > echo preg_replace($pattern, '$1', $kanji);
漢字漢字私字私字漢字私漢字漢字私
php > echo preg_replace($pattern, '$1', $not_kanji);
abcbc
Что, ты думал, что я собираюсь снова использовать mb_substr
?
В регулярном выражении он ищет любого персонажа, затем один или несколько экземпляров этого же персонажа. Соответствующая область затем заменяется одним соответствующим символом.
Модификатор u
включает режим UTF-8 в PCRE, в котором он обрабатывает последовательности UTF-8 вместо 8-битных символов. Пока обрабатываемая строка имеет формат UTF-8 уже и PCRE был скомпилирован с поддержкой Unicode, это должно работать для вас.
Эй, угадай, что!
$not_kanji = 'aaabbbbcdddbbbbccgggcdddeeedddaaaffff';
$l = mb_strlen($not_kanji);
$unique = array();
for($i = 0; $i < $l; $i++) {
$char = mb_substr($not_kanji, $i, 1);
if(!array_key_exists($char, $unique))
$unique[$char] = 0;
$unique[$char]++;
}
echo join('', array_keys($unique));
Здесь используется тот же общий трюк, что и в коде тасования. Мы берем длину строки, затем используем mb_substr
, чтобы извлечь ее по одному символу за раз. Затем мы используем этот символ в качестве ключа в массиве. Мы используем преимущества позиционных массивов PHP: ключи сортируются в порядке их определения. После того, как мы прошли строку и определили все символы, мы берем ключи и соединяем их вместе в том же порядке, в котором они появились в строке. Вы также получаете количество персонажей для каждого персонажа в этой технике.
Это было бы намного проще, если бы существовала такая вещь, как mb_str_split
, чтобы согласиться с str_split
.
(здесь нет примера кандзи, у меня ошибка копирования / вставки.)
Вот, попробуйте это для размера:
function mb_count_chars_kinda($input) {
$l = mb_strlen($input);
$unique = array();
for($i = 0; $i < $l; $i++) {
$char = mb_substr($input, $i, 1);
if(!array_key_exists($char, $unique))
$unique[$char] = 0;
$unique[$char]++;
}
return $unique;
}
function mb_string_chars_diff($one, $two) {
$left = array_keys(mb_count_chars_kinda($one));
$right = array_keys(mb_count_chars_kinda($two));
return array_diff($left, $right);
}
print_r(mb_string_chars_diff('aabbccddeeffgg', 'abcde'));
/* =>
Array
(
[5] => f
[6] => g
)
*/
Вы захотите вызвать это дважды , второй раз с левой строкой справа и правой строкой слева. Вывод будет другим - array_diff
просто даст вам материал с левой стороны, который отсутствует справа, поэтому вам придется сделать это дважды, чтобы получить всю историю.