На большинстве языков есть фильтрация проклятий , которые обычно доступны с возможностью настраивать отфильтрованные слова.
Для фильтрации спама есть вещикак байесовские фильтры спама , которые пытаются определить, является ли сообщение спамом, основываясь на ключевых словах в ответе.Это действительно не то, что вы хотели бы попытаться сделать сами.
Еще одна вещь, на которую стоит обратить внимание - Цепи Маркова .Они предназначены для генерации строк кажущегося корректного текста на основе вероятности того, что за любым данным словом последует любое другое конкретное слово.Используя обратный процесс, вы можете попытаться определить, является ли строка текста действительной, проверив, следуют ли за используемыми словами другие слова «по теме».Это также будет очень сложно.
Чтобы сохранить конфиденциальность пользователей, вы можете использовать комбинации этих трех тестов для создания порога.То есть вы будете проверять сообщения no , если они не набрали высокий балл / спам / не по теме.В этот момент эти сообщения будут проверены вручную, чтобы убедиться, что они уместны.
В настоящее время нет способа создать 100% автоматический процесс, который не будет блокировать действительные сообщения и пропускать недействительные.