Как отфильтровать сообщения чата путем нормализации писем? - PullRequest
4 голосов
/ 11 октября 2010

Я фильтрую сообщения чата в системе чата, где желательно ограничение строк латиницей-1 на английском.Пользователи склонны использовать креативную типизацию, например

ßòógīě§

вместо

Boogies

В Java существуют методы нормализации Юникода, которые могут удалять диакритические знаки, но меня больше интересуют методынормализации формы букв к английскому и набора символов Latin-1.

Существуют ли какие-либо таблицы, библиотеки или методы, которые могут визуально отображать общие символы Юникода за пределами Latin-1 в их ближайшие формы??Например,

ß -> B
§ -> S
¥ -> Y
¤ -> o

Я подозреваю, что ответ "Нет, это было бы слишком большим, просто вместо этого отфильтруйте их все", но я могу надеяться ...

Ответы [ 2 ]

1 голос
/ 11 октября 2010

Я думаю, что вам лучше всего использовать механизм оптического распознавания символов. В конце концов, это именно то, что вам нужно: лучшее усилие, чтобы разобрать буквы в читаемые символы A-Z. (Не забудьте распечатать сообщения чата на изображении, используя тот же шрифт, что и в вашем клиенте чата.)

Две библиотеки Java-OCR:

0 голосов
/ 11 октября 2010

Правильное решение - не устанавливать идиотские «фильтры ненормативной лексики» (которые, как я полагаю, стоят за этим запросом).Если сообщество вообще не может контролировать себя в этом отношении, модерируйте его вручную и запрещайте нарушителей или закрывайте его.Необходимость бороться с проблемой Scunthorpe обидит ваших пользователей гораздо больше, чем некоторые ругательства.

...