Мне нужен способ отфильтровать имена, которые люди дают своим творениям, чтобы они не содержали ненормативную лексику и были безопасны для использования с детьми.
Я работаю над проектом, в котором пользователь приложения может создать изображение, используя части, которые мы предоставляем, и назвать их создание. Мы ожидаем, что большинство, но не все пользователи будут детьми. Хотя функциональность может быть добавлена позже, сгенерированный пользователем контент не будет передаваться другим пользователям напрямую через приложение, что делает эту проблему интересной, поскольку мы не можем отслеживать взаимодействие в реальном мире. Это означает, что мне нужно что-то, что может отфильтровать имена контента, прежде чем пользователь сможет получить их в реальном мире и использовать их. Я никогда раньше не писал подобный фильтр, но из того, что я посмотрел и прочитал, подход, используемый при создании фильтров ненормативной лексики, возможно, важнее, чем фактическая реализация кода, поскольку человеческий язык настолько нюансирован. Этот фильтр должен соответствовать относительно высоким стандартам из-за целевой аудитории, поэтому я прошу совета о том, как наиболее эффективно подходить к проблеме.
Отфильтрованный контент будет не чем иным, как именем, поэтому необходимо фильтровать менее 20 символов, что уменьшает, но не устраняет необходимость анализировать контекст, в котором появляются слова, но в идеале мы должны проверять ненормативную лексику на как можно большем количестве языков. Я знаю, что существуют списки подобных слов, но если у кого-то есть особенно хорошие рекомендации, они будут оценены.