Замените специальные символы соответствующими английскими буквами - PullRequest
0 голосов
/ 04 июня 2018

Ищем реализацию или библиотеку (в идеале на Java), которая преобразует Unicode текст, такой как ниже, в соответствующие ASCII английские символы:

ʀᴇɢɪꜱᴛʀᴀᴛɪᴏɴ

Нижеследующее должно быть преобразовано в:

РЕГИСТРАЦИЯ

Обратите внимание, что возможны другие символы, которые необходимо преобразовать, например:в "cσdє".

Конечная цель - сделать фенетическое / нечеткое совпадение , однако я полагаю, что это станет легко, как только символы станут действительными английскими ASCII.

1 Ответ

0 голосов
/ 11 июня 2018

Оказывается, их называют гомоглифами, поэтому мы пытаемся защитить от атак гомоглифов / гомографов.

Я нашел эту библиотеку, Обнаружение гомоглифов быть хорошей отправной точкой для решения;они обеспечивают хорошее сопоставление, хотя и неполное, чтобы действительно остановить спам.

Было бы неплохо, чтобы такие файлы сопоставления юникод-латиница передавались и заполнялись сообществом.

...