Я фильтрую сообщения чата в системе чата, где желательно ограничение строк латиницей-1 на английском.Пользователи склонны использовать креативную типизацию, например
ßòógīě§
вместо
Boogies
В Java существуют методы нормализации Юникода, которые могут удалять диакритические знаки, но меня больше интересуют методынормализации формы букв к английскому и набора символов Latin-1.
Существуют ли какие-либо таблицы, библиотеки или методы, которые могут визуально отображать общие символы Юникода за пределами Latin-1 в их ближайшие формы??Например,
ß -> B
§ -> S
¥ -> Y
¤ -> o
Я подозреваю, что ответ "Нет, это было бы слишком большим, просто вместо этого отфильтруйте их все", но я могу надеяться ...