Обнаружение одного символа CJK - PullRequest
2 голосов
/ 13 июня 2011

У меня есть строка, которая может быть либо английским словом, либо одним символом CJK. Я гарантированно, что эта строка в кодировке UTF-8. Я работаю внутри Perl-скрипта.

Проблема более высокого уровня в том, что у меня есть массив строк, подобный описанному выше. Я делаю соединение "" @array. Я хочу знать, чтобы не добавлять пробел, когда его CJK.

Так что для CJK я просто сделаю join "" @ array.

Я оглянулся, но не могу найти этот точный вопрос.

Спасибо.

1 Ответ

6 голосов
/ 13 июня 2011

Вы можете использовать регулярное выражение \p{InCJK_Unified_Ideographs}. Это блок Unicode (в отличие от сценариев Unicode, которые также поддерживаются Perl, но не соответствуют описанию вашей проблемы).

Есть некоторые другие блоки-кандидаты, такие как расширение A и дополнение к радикалам. Вот полный список .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...