Мне нужно проанализировать текст на наличие в нем запрещенных слов.Предположим, в черном списке есть слово: «Запретить».Слово имеет много форм.В тексте слово может быть, например: «запрещающий», «запрещенный», «запрещенный».Чтобы привести слово в исходную форму, я использую процесс лемматизации.Ваши предложения?
А как насчет опечаток?
Например: "F0rb1d".Я думаю использовать damerau – Levenshtein или другое.Ваши предложения?
А что если текст написан следующим образом :
«Запрещенная информация. Частная корреспонденция компании».ИЛИ "F0rb1dden1nformation.Privatecorresp0ndenceoftccmpany."(да, без пробелов)
Как решить эту проблему?
Желательно быстрый алгоритм, потому что текст обрабатывается в реальном времени.
И, возможно, какие советы по улучшению производительности (как хранить и т. д.))