PHP: Как фильтровать невидимые символы ASCII? - PullRequest
2 голосов
/ 02 марта 2012

Кто-нибудь знает хороший способ фильтрации невидимых и редких символов из строки в PHP?

Я нахожусь в ситуации, когда я анализирую текст статьи новостей с веб-сайта, я делаюкуча «нормализаций», например, удаление двойных новых строк, удаление тегов и тому подобное.Проблема в том, что я наткнулся на некоторых странных невидимых персонажей, когда я звоню ord(), я получаю 194 и 160 .. они там не принадлежат.Дело в том, что такие символы появляются между новыми абзацами, поэтому при визуализации текста создается новая двойная строка, поскольку между двумя абзацами есть невидимый символ.

Это все равнобыло бы хорошо, если бы я мог легко фильтровать что угодно, кроме латинского, кириллического алфавита, чисел и общих символов, таких как *, (,% и т. д. Я мог бы создать карту со всеми из них и заменить остальные, но что было бы самым простым и быстрым способом сделатьэто?

1 Ответ

0 голосов
/ 02 марта 2012

Статья и мой сценарий находятся в одной и той же «локали» или как там ее называют - она ​​использует windows-1251 с кириллическими символами, синтаксический анализ выполнен правильно, но постеру удалось вставить странный символ при вводе новостейarticle.

Я сделал регулярное выражение preg_replace, чтобы удалить все, кроме символов, чисел и некоторых общих символов, это работает для меня.

@ phihag Статья была интересной, но неответ на мой вопрос, только показал мне, что он не был задан правильно и заставил меня чувствовать себя глупым.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...