Наименее используемый юникод-разделитель - PullRequest
1 голос
/ 27 июня 2011

Я пытаюсь пометить мой текст разделителем в определенных местах, которые позже будут использоваться для разбора. Я хочу использовать символ разделителя, который используется реже всего. Сейчас я смотрю на символ "\ 2" или U + 0002. Это достаточно безопасно для использования? Какие еще предложения есть? Текст в кодировке Unicode будет содержать как английские, так и неанглийские символы.

Желание использовать символ, который все еще может быть "взорван ()" PHP.

Edit:

Также я хочу иметь возможность отображать этот фрагмент текста на экране (в браузере), и разделитель будет «невидимым» для пользователя. Я определенно могу использовать str_replace (), чтобы избавиться от видимых разделителей, но если есть хорошие невидимые разделители, то такая обработка не требуется.

1 Ответ

4 голосов
/ 27 июня 2011

Если это только для внутреннего представления (т. Е. , а не для обмена и хранения), то вы можете использовать не символьную кодовую точку, например U + FFFF. Java использует это как сигнал, что CharacterIterator сделан, например .

...