Кодировать / сжать последовательность повторяющихся целых чисел - PullRequest
8 голосов
/ 02 апреля 2010

У меня есть очень длинные целочисленные последовательности, которые выглядят так (произвольная длина!):

0000000001110002220033333

Теперь мне нужен алгоритм для преобразования этой строки во что-то сжатое, как

a9b3a3c3a2d5

Что означает «a 9 раз, затем b 3 раза, затем a 3 раза» и так далее, где «a» обозначает 0, «b» обозначает 1, «c» обозначает 2 и «d» обозначает 3.

Как бы вы это сделали? Пока что мне не пришло ничего подходящего, и мне не повезло с Google, потому что я не знал, что искать. Как называется этот вид кодирования / сжатия?

PS: я собираюсь сделать кодировку с PHP и декодирование в JavaScript .

Редактировать : Спасибо всем!

Я получил эту функцию для кодирования:

protected function numStringToRle($s){          
        $rle    = '';
        $count = 1;
        $len    = strlen($s);
        for($i = 0; $i < $len; $i++){
            if($i != $len && isset($s[$i+1]) && $s[$i] == $s[$i+1]){
                $count++;                
            } else {
                $rle .= chr($s[$i] + 97).( $count == 1 ? '' : $count);                                
                $count = 1;
            }
        }
        return $rle;            
}

А что для декодирования:

var decodeCoords = function(str) {

   str = str.replace(/(.)(\d+)/g, function(_, x, n) {
       return new Array(parseInt(n, 10) + 1).join(x);
   });

   return str.
     replace(/a/g, '0').
     replace(/b/g, '1').
     replace(/c/g, '2').
     replace(/d/g, '3');     
};

Ответы [ 6 ]

7 голосов
/ 02 апреля 2010

Это называется Кодировка длины выполнения

Базовый кодировщик в PHP:

function numStringToRle($s){
    $rle = '';
    $count = 1;
    $len = strlen($s);
    for ( $i = 0; $i < $len; $i++ ){
        if ( $i != $len && $s[$i] == $s[$i+1] ){
            $count++;                
        }else{
          $rle .= chr($s[$i] + 97).$count;    
          $count = 1;
        }
    }
    return $rle;
}

Имейте в виду, что это приведет к серьезным проблемам со строкой типа

 123456789123456789

Если вы собираетесь обрабатывать строку, которая может содержать много отдельных одиночных символов, вам лучше добавить некоторую сложность, а не записывать длину прогона, если длина прогона равна 1.

//change
$rle .= chr($s[$i] + 97).$count;    

//to
$rle .= chr($s[$i] + 97).( $count == 1 ? '' : $count );   

//or
$rle .= chr($s[$i] + 97)
if ( $count != 1 ){
    $rle .= $count;
}
2 голосов
/ 02 апреля 2010

Вот более короткая версия:

function smush(str) {
  return str.replace(/((.)\2*)/g, function(_, w, x) {
    return x + w.length;
  });
}

edit о, я вижу, вы хотите кодировать с помощью php;извини, я этого не знаю.Вот декодер в похожем духе:

function unsmush(str) {
  return str.replace(/(.)(\d+)/g, function(_, x, n) {
    return new Array(parseInt(n, 10) + 1).join(x);
  });
}
2 голосов
/ 02 апреля 2010

Вот наивная реализация того, что вы хотите.

$toEncode = '0000000001110002220033333';
$currentChar = '-1';
$length = strlen($toEncode);
$encoded = '';
$currentNbrChar = 0;
for($i = 0; $i < $length; $i++){
  if($toEncode[$i] != $currentChar){
    if($currentChar != '-1'){
      $encoded .= chr(97 + $currentChar).$currentNbrChar;
    }
    $currentNbrChar = 0;
    $currentChar = $toEncode[$i];
  }
  $currentNbrChar ++;
}
if($currentChar != '-1'){
  $encoded .= chr(97 + $currentChar).$currentNbrChar;
}
echo $encoded;
0 голосов
/ 16 июля 2015
function compress( $str) {
$strArr = str_split($str.'0');
$count = 0;
$resStr = '';
$strCheck = $strArr[0];
foreach($strArr as $key => $value)
{
    if($strCheck == $value)
    {
       $count++;
    } 
    else
    {
        if($count == 1)
        {
            $strCheck = $value;
            $resStr .= $strArr[$key-1];
            $count=1;
        }
        elseif($count == 2)
        {
            $strCheck = $value;
            $resStr .= $strArr[$key-1].$strArr[$key-1];
            $count=1;
        }
        else
        {
            $strCheck = $value;
            $resStr .= $strArr[$key-1].$count;
            $count=1;
        }
    } 

} 
return $resStr;

}

0 голосов
/ 02 апреля 2010
$str="0000000001110002220033333";

//$c will count the number of occurances.

$c=1;

$lastInt=substr($str,0,1);

$str=substr($str,1);

$resultStr='';

$loopEnd=strlen($str);


for($i=1; $i<=$loopEnd+1;$i++)

{

    $nowInt=substr($str,0,1);   
    if($lastInt==$nowInt)
    {
        $c++;
        $str=substr($str,1);
    }
    else
    {
        $char=chr((int)$lastInt + 97);
        $resultStr=$resultStr.$char.$c;
        $str=substr($str,1);
        $c=1;
        $lastInt=$nowInt;
    }
}

// we use if condition since for loop will not take the last integer if it repeats.

if($c>1)
{

$char=chr((int)$lastInt + 97);

$resultStr=$resultStr.$char.$c;

}

echo $resultStr;
0 голосов
/ 02 апреля 2010

Только к вашему сведению, вы, вероятно, можете распаковать ваши данные, и просмотр автоматически распакует их. Для большинства реализаций это будет работать лучше, чем RLE. Но меньше веселья, очевидно.

...