Кто-нибудь знает хороший способ фильтрации невидимых и редких символов из строки в PHP?
Я нахожусь в ситуации, когда я анализирую текст статьи новостей с веб-сайта, я делаюкуча «нормализаций», например, удаление двойных новых строк, удаление тегов и тому подобное.Проблема в том, что я наткнулся на некоторых странных невидимых персонажей, когда я звоню ord()
, я получаю 194 и 160 .. они там не принадлежат.Дело в том, что такие символы появляются между новыми абзацами, поэтому при визуализации текста создается новая двойная строка, поскольку между двумя абзацами есть невидимый символ.
Это все равнобыло бы хорошо, если бы я мог легко фильтровать что угодно, кроме латинского, кириллического алфавита, чисел и общих символов, таких как *, (,% и т. д. Я мог бы создать карту со всеми из них и заменить остальные, но что было бы самым простым и быстрым способом сделатьэто?