Несмотря на то, что решение SimpleCoder гораздо более сложное, чем это, я все равно рекомендовал бы вручную модерировать изображения. Если вы не потратите тысячи долларов на создание чрезвычайно продвинутого алгоритма, у вас всегда будут ложные и отрицательные результаты. В качестве небольшого эксперимента я пошел на http://pikture.logikit.net/Demo/index и загрузил 8 изображений. 6 были чистыми и 2 были явными. Из двух явных изображений одно было ложно помечено как чистое. Из шести чистых изображений четыре были ложно помечены как явные. Имейте в виду, я намеренно пытался обмануть это, выбирая изображения, с которыми, как я думал, компьютер перепутает, и оказалось, что это было довольно легко. Их программа набрала жалкие 37,5%.
Вот несколько рекомендаций, которые должны по крайней мере несколько облегчить жизнь модераторам и не должны быть слишком сложными для программной реализации:
1) Возьмите все отклоненные в настоящий момент изображения (если возможно), хэшируйте файлы и сохраняйте хеши в базе данных. Хэшируйте все новые представления, когда они приходят, и проверяйте хеш против уже существующих хэшей. Если совпадение найдено, отметьте его автоматически. Когда администратор вручную отклоняет изображение, добавьте этот хэш в базу данных. Это по крайней мере предотвратит повторную пометку дубликатов.
2) Добавьте вес к $ isPornScore для всех изображений со всех доменов, если какой-либо явный контент будет найден в любом файле в этом домене. Возможно, следует уделять больше внимания нескольким вхождениям из одного домена. Действуйте аналогично горячим ссылкам на домены с изображениями на этих доменах.
3) Проверьте само имя домена. Если он содержит явный язык, добавьте в $ isPornScore. Также то же самое следует сделать с URI как изображения, так и страницы, содержащей тег привязки (если отличается).
4) Проверьте текст вокруг изображения. Несмотря на то, что это не на 100% точно, если у вас есть явное «Farm sexxx с тремя женщинами и ...» где-то на странице, вы можете по крайней мере увеличить вес, который будут иметь все изображения на этой странице (или домене) явный.
5) Используйте любые другие методы или критерии, которые вы можете, и примените общий «балл» к изображению. Затем используйте собственное суждение и / или метод проб и ошибок, и, если оценка выше определенной суммы, автоматически пометьте ее как явную и пометьте. Постарайтесь достичь приемлемого баланса между ложными срабатываниями и любой ценой отсутствия явного изображения. Если оно не помечено автоматически как явное, по-прежнему требуется вмешательство модератора.