Как создать escape-последовательности JavaScript в PHP? - PullRequest
4 голосов
/ 04 апреля 2010

Я ищу способ создания допустимых символов escape-последовательности UTF-16 JavaScript (включая суррогатные пары) из PHP.

Я использую приведенный ниже код для получения кодовых точек UTF-32 (от символа в кодировке UTF-8). Это работает как escape-символы JavaScript (например, '\ u00E1' для 'á') - пока вы не попадете в верхние диапазоны, где вы получите суррогатные пары (например, '?' выходит как '\ u1D715', но должно быть '\ uD835 \ uDF15' ) ...

function toOrdinal($chr)
{
    if (ord($chr{0}) >= 0 && ord($chr{0}) <= 127) 
    {
        return ord($chr{0});
    }
    elseif (ord($chr{0}) >= 192 && ord($chr{0}) <= 223)
    {
        return (ord($chr{0}) - 192) * 64 + (ord($chr{1}) - 128);
    }
    elseif (ord($chr{0}) >= 224 && ord($chr{0}) <= 239)
    {
        return (ord($chr{0}) - 224) * 4096 + (ord($chr{1}) - 128) * 64 + (ord($chr{2}) - 128);
    }
    elseif (ord($chr{0}) >= 240 && ord($chr{0}) <= 247)
    {
        return (ord($chr{0}) - 240) * 262144 + (ord($chr{1}) - 128) * 4096 + (ord($chr{2}) - 128) * 64 + (ord($chr{3}) - 128);
    }
    elseif (ord($chr{0}) >= 248 && ord($chr{0}) <= 251)
    {
        return (ord($chr{0}) - 248) * 16777216 + (ord($chr{1}) - 128) * 262144 + (ord($chr{2}) - 128) * 4096 + (ord($chr{3}) - 128) * 64 + (ord($chr{4}) - 128);
    }
    elseif (ord($chr{0}) >= 252 && ord($chr{0}) <= 253)
    {
         return (ord($chr{0}) - 252) * 1073741824 + (ord($chr{1}) - 128) * 16777216 + (ord($chr{2}) - 128) * 262144 + (ord($chr{3}) - 128) * 4096 + (ord($chr{4}) - 128) * 64 + (ord($chr{5}) - 128);
    }
}

Как мне адаптировать этот код, чтобы получить правильные кодовые точки UTF-16? Спасибо!

Ответы [ 2 ]

1 голос
/ 04 апреля 2010

Как насчет использования iconv (или аналогично mb_convert_encoding)?

например. что-то вроде:

$utf16= iconv('UTF-8', 'UTF-16LE', $text);
$codeunits= array();
for ($i= 0; $i<strlen($utf16); $i+= 2) {
    $codeunits[]= ord($utf16{$i})+ord($utf16{$i+1})<<8;
}
0 голосов
/ 05 апреля 2010

Вот последний использованный код (на основе ответа от bobince):

$output = '';
$utf16 = iconv(fxCHARSET, 'UTF-16BE', $text);
for ($i= 0; $i < strlen($utf16); $i+= 2)
{
    $output.= '\\u'.str_pad(dechex((ord($character{$i}) << 8) + ord($character{$i+1})), 4, '0', STR_PAD_LEFT);
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...