Как отметили другие комментаторы, Нормализация Unicode ("символы совместимости") здесь не помогут, так как вы ищете не официальные эквиваленты, а сходства в глифах (в форме букв). (Тем не менее, связанный Технический отчет по Unicode все еще стоит прочитать, так как он очень хорошо написан.)
Если бы я был вами, чтобы избавить вас от утомительной работы по составлению списка символов самостоятельно, я бы искал ресурсы для гомографических атак : это метод злонамеренного введения в заблуждение веб-пользователей путем отображения URL-адресов содержит доменные имена, в которых некоторые буквы были заменены на визуально похожие буквы. В другом техническом отчете Unicode по безопасности содержится раздел, посвященный проблеме. Существует также - и это может быть то, что вам больше всего нужно - таблица «confusables» . Вот еще одна статья, состоящая в основном из знаков препинания, некоторые из которых ASCII, которые имеют визуально похожие аналоги в таблицах кодов не-ASCII .
Я надеюсь, что вы не задаете вопрос, чтобы построить такую атаку.