Это может зависеть от ваших целей.Я предполагаю, что вы в основном заинтересованы в минимизации ложных негативов (случайное называние домена хорошим доменом, если это не так).Это может быть правдой, если, например, вы хотите, чтобы все порно ссылки на форуме будут рассмотрены на предмет спама перед публикацией.Если некоторые не порно ссылка получить помечена для просмотра, это нормально.
1002 * В этом случае, вы могли бы, вероятно, сделать что-то довольно просто.Если бы вы могли придумать список porn'ish слов, можно просто пометить все домены, которые содержат любое из этих слов в качестве подстроки.Это могло бы поймать некоторые безопасные домены, хотя: expertsexchange.com мог бы соответствовать «sex» или «sexchange», но «yahoo» никогда не отмечал бы положительный.Легко реализовать, легко понять, легко настроить.
Списки нецензурных слов можно найти с помощью вашей любимой поисковой системы.Вы можете использовать свой список доменов для извлечения общих длинных подстрок в доменах в виде слов.
Если вы действительно хотите получить правильные ответы, вам нужно посмотреть, что находится в этих доменах.Site-About-Kitty-Porn.com может быть домен или Смешные котята нелегальный порно.Невозможно знать, если вы не ползете.Если вы выберете фактический контент и сопоставите его с вашим списком, у вас будет немного лучше.
Вы также можете попробовать каждый домен с какой-либо сторонней службой, такой как безопасный для детей интернет-фильтр, или даже попытаться проверить, появится ли домен для результатов безопасного поиска в вашей любимой поисковой системе.Конечно, убедитесь, что вы соблюдаете условия обслуживания каждой службы и все это.