Как я могу отфильтровать пользовательский контент для детского приложения, где контент не будет передан через приложение? - PullRequest
0 голосов
/ 27 июня 2019

Мне нужен способ отфильтровать имена, которые люди дают своим творениям, чтобы они не содержали ненормативную лексику и были безопасны для использования с детьми.

Я работаю над проектом, в котором пользователь приложения может создать изображение, используя части, которые мы предоставляем, и назвать их создание. Мы ожидаем, что большинство, но не все пользователи будут детьми. Хотя функциональность может быть добавлена ​​позже, сгенерированный пользователем контент не будет передаваться другим пользователям напрямую через приложение, что делает эту проблему интересной, поскольку мы не можем отслеживать взаимодействие в реальном мире. Это означает, что мне нужно что-то, что может отфильтровать имена контента, прежде чем пользователь сможет получить их в реальном мире и использовать их. Я никогда раньше не писал подобный фильтр, но из того, что я посмотрел и прочитал, подход, используемый при создании фильтров ненормативной лексики, возможно, важнее, чем фактическая реализация кода, поскольку человеческий язык настолько нюансирован. Этот фильтр должен соответствовать относительно высоким стандартам из-за целевой аудитории, поэтому я прошу совета о том, как наиболее эффективно подходить к проблеме.

Отфильтрованный контент будет не чем иным, как именем, поэтому необходимо фильтровать менее 20 символов, что уменьшает, но не устраняет необходимость анализировать контекст, в котором появляются слова, но в идеале мы должны проверять ненормативную лексику на как можно большем количестве языков. Я знаю, что существуют списки подобных слов, но если у кого-то есть особенно хорошие рекомендации, они будут оценены.

...