Как Google распознает контент для взрослых с помощью safesearch? - PullRequest
13 голосов
/ 02 января 2011

Я создаю поисковую систему (для изучения) и хочу узнать, как Google распознает контент и изображения для взрослых с Safesearch (http://en.wikipedia.org/wiki/Safesearch).

Язык программы не имеет значения, я хочу знать только подход к общему языку программы.

Ответы [ 4 ]

14 голосов
/ 02 января 2011

Если правила для какого-либо фильтра содержимого попадут в руки людей, пытающихся получить этот контент через фильтр, фильтр станет неэффективным.

Итак, я думаю, что правила Google (1) не являются общедоступными и (2) часто меняются.

Тем не менее, начиная с небольшого черного списка сайтов для взрослых и следуя исходящим ссылкам (и / или находя сайты со ссылками на сайты из черного списка), вероятно, можно найти огромное количество сайтов для взрослых. Но ни в коем случае вам не понадобятся алгоритмы обработки текста и распознавания изображений.

ПРИМЕЧАНИЕ. Популярная теория заключается в том, что провайдеры контента для взрослых платят людям, чтобы они задавали вопросы на stackoverflow.com, чтобы у Джона Скита и Марка Гравелла было меньше времени для обновления фильтров SafeSearch. Однако легко показать, что Джон и Марк отвечают на вопросы с такой высокой скоростью, что любая такая стратегия не будет экономически жизнеспособной.

3 голосов
/ 02 января 2011

Ответ Бена верен по всем пунктам, но я хотел бы добавить свои соображения.

О распознавании изображений: с большим набором изображений вам будет довольно легко идентифицировать такие объекты, как обнаженные груди,пенисы и тому подобное внутри них с использованием распознавания образов.

Однако все алгоритмы искусственного интеллекта имеют слабые стороны.Вы можете столкнуться с тем, что определенный процент ваших изображений, в зависимости от качества используемого классификатора, ошибочно классифицирован.

Тогда , вам придется применять другие критерии, отличные от обработки изображений.Конечно, критерии Google не являются общедоступными, но вы хотели бы рассмотреть теги ICRA для произвольной маркировки определенных материалов как материалов для взрослых, обработки текста и междоменных ссылок.Если бы я был создателем Safesearch, я бы применил следующий шаблон: сайты для взрослых часто обмениваются ссылками, поэтому вы найдете множество пересечений в графах ссылок между группами сайтов для взрослых.

Размещение егоВ целом, хороший подход к классификации использует несколько меньших критериев, баллов , чтобы определить, является ли изображение взрослым или нет.

2 голосов
/ 02 января 2011

Возможно, аналогично тому, как фильтруется спам.

Первый шаг - создать обучающий набор на основе известных сайтов для взрослых и извлечь из них функции.Это могут быть ключевые слова, цвета, используемые в изображениях, структура доменного имени, данные whois, что угодно.Все, что может каким-то образом отличаться для контента для взрослых по сравнению с контентом для взрослых.

Следующим шагом является применение к этому некоторой статистической модели.Байесовские модели, кажется, хорошо работают для спама, но не для взрослых.

Машины опорных векторов кажутся подходящими, но это намного сложнее, и я сам не очень знаком с этим.

2 голосов
/ 02 января 2011

Держу пари, это очень сложно.

Возможно, с помощью текста они фильтруют страницы с более чем n или n% взрослыми связанными словами.

А с изображениями, возможно, они смотрят имя файла и окружающий текст на странице, где было найдено каждое изображение, и фильтруют его, если в нем полно слов для взрослых. Они также могут сканировать изображения в поисках телесных тонов и обнаженных людей.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...