Удалить или кодировать символы не-UTF-8 - PullRequest
2 голосов
/ 09 октября 2011

Есть ли функция для удаления всех не-UTF-8 символов из строки?

1 Ответ

10 голосов
/ 09 октября 2011

Если у вас есть строка UTF-8, которая может содержать недопустимые символы, вы можете использовать iconv для их удаления. Это должно работать:

$text = iconv("utf-8", "utf-8//ignore", $text);

Сделать их видимыми с произвольным заполнителем немного сложнее - я не могу придумать ни одного простого способа сделать это, кроме как пройти через каждый байт и посмотреть, является ли это действительным символом. В статье Википедии содержится дополнительная информация о том, как это сделать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...