Подбор изображений для небезопасных изображений - PullRequest
2 голосов
/ 16 августа 2011

Теперь у меня есть сайт, который сканирует изображения. Изображения предоставляются в зависимости от того, разрешены ли небезопасные (18+) изображения.

Сейчас мы сами сортируем изображения, и это занимает очень много времени, так как мы получаем много изображений в день.

Я знаю, что Google делает это очень хорошо.

Я просто хочу, чтобы изображения сексуального и порнографического характера, чтобы разобраться. Девушки в бикини в порядке.

Мне пришла в голову идея, где программа будет искать изображение по шаблонам изображений, которые я не хочу показывать. Например, поиск изображений для рядовых, а затем, если шаблон найден, пометьте его как небезопасный.

Мне было интересно, есть ли какая-нибудь программа или алгоритм в php, который может быть использован для этого для нас?

Ответы [ 2 ]

1 голос
/ 17 августа 2011

Несмотря на то, что решение SimpleCoder гораздо более сложное, чем это, я все равно рекомендовал бы вручную модерировать изображения. Если вы не потратите тысячи долларов на создание чрезвычайно продвинутого алгоритма, у вас всегда будут ложные и отрицательные результаты. В качестве небольшого эксперимента я пошел на http://pikture.logikit.net/Demo/index и загрузил 8 изображений. 6 были чистыми и 2 были явными. Из двух явных изображений одно было ложно помечено как чистое. Из шести чистых изображений четыре были ложно помечены как явные. Имейте в виду, я намеренно пытался обмануть это, выбирая изображения, с которыми, как я думал, компьютер перепутает, и оказалось, что это было довольно легко. Их программа набрала жалкие 37,5%.

Вот несколько рекомендаций, которые должны по крайней мере несколько облегчить жизнь модераторам и не должны быть слишком сложными для программной реализации:

1) Возьмите все отклоненные в настоящий момент изображения (если возможно), хэшируйте файлы и сохраняйте хеши в базе данных. Хэшируйте все новые представления, когда они приходят, и проверяйте хеш против уже существующих хэшей. Если совпадение найдено, отметьте его автоматически. Когда администратор вручную отклоняет изображение, добавьте этот хэш в базу данных. Это по крайней мере предотвратит повторную пометку дубликатов.

2) Добавьте вес к $ isPornScore для всех изображений со всех доменов, если какой-либо явный контент будет найден в любом файле в этом домене. Возможно, следует уделять больше внимания нескольким вхождениям из одного домена. Действуйте аналогично горячим ссылкам на домены с изображениями на этих доменах.

3) Проверьте само имя домена. Если он содержит явный язык, добавьте в $ isPornScore. Также то же самое следует сделать с URI как изображения, так и страницы, содержащей тег привязки (если отличается).

4) Проверьте текст вокруг изображения. Несмотря на то, что это не на 100% точно, если у вас есть явное «Farm sexxx с тремя женщинами и ...» где-то на странице, вы можете по крайней мере увеличить вес, который будут иметь все изображения на этой странице (или домене) явный.

5) Используйте любые другие методы или критерии, которые вы можете, и примените общий «балл» к изображению. Затем используйте собственное суждение и / или метод проб и ошибок, и, если оценка выше определенной суммы, автоматически пометьте ее как явную и пометьте. Постарайтесь достичь приемлемого баланса между ложными срабатываниями и любой ценой отсутствия явного изображения. Если оно не помечено автоматически как явное, по-прежнему требуется вмешательство модератора.

1 голос
/ 16 августа 2011

Я предполагаю, что вы хотите фильтровать на основе содержимого изображения, а не контекста (например, какие слова вокруг изображения).

Это довольно интенсивный ИИ.Вам нужно будет обучить алгоритм, чтобы он мог «узнать», как выглядит небезопасное изображение.Вот отличная статья на эту тему: http://www.stanford.edu/class/cs229/proj2005/HabisKrsmanovic-ExplicitImageFilter.pdf

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...