Как я могу гарантировать, что URL-адрес указывает на безопасный, не предназначенный для взрослых контент, не являющийся спамом, когда люди могут публиковать контент на моем веб-сайте? - PullRequest
6 голосов
/ 31 января 2011

Я работаю над сайтом PHP, который позволяет пользователям публиковать данные о своем бизнесе, связанные с темой сайтов. Сюда входит URL-адрес одной ссылки, текст и необязательный URL-адрес для файла изображения.

Пример:

<img src="http://www.somesite.com" width="40" />
<a href="http://www.abcbusiness.com" target="new">ABC Business</a>
<p>
Some text about how great abc business is...
</p>

HTML в тексте фильтруется с использованием класса htmlpurifier.org , а содержимое проверяется на наличие плохих слов, поэтому я чувствую себя довольно хорошо в этой части.

URL-адрес файла изображения всегда помещается внутри тега <img src="" /> с фиксированной шириной и проверяется как фактический URL-адрес HTTP, поэтому значение должно быть ОК.

Опасная часть - ссылка.

Вопрос : Как я могу быть уверен, что ссылка не указывает на какой-SPAM, небезопасные или порносайтов (с помощью кода)

Я могу проверить заголовки на 404 и т. Д., Но есть ли быстрый и простой способ проверки содержимого сайтов по ссылке.

EDIT:

Я использую CAPTCHA и мне требуется регистрация, прежде чем разрешить публикацию.

Ответы [ 4 ]

8 голосов
/ 31 января 2011

Будет очень сложно попытаться определить это самостоятельно, отсканировав URL сайта. Возможно, вы захотите использовать какой-нибудь сторонний API, который может проверить вас.

http://code.google.com/apis/safebrowsing/

Проверьте, что API, вы можете отправить ему URL, и он скажет вам, что он думает. Это один в основном проверка на наличие вредоносных программ и фишинговых ... не так много порно и спам. Есть другие, которые делают то же самое, просто поискать в Google.

8 голосов
/ 31 января 2011

есть быстрый и простой способ проверки содержимого сайтов по ссылке.

Нет.Не существует глобального белого / черного списка URL-адресов, которые вы можете использовать для какой-либо фильтрации «плохих» сайтов, тем более что ваше определение «плохого» сайта настолько неопределенно.и скажите, имеет ли страница, на которую она указывает, плохой контент, в наши дни легко замаскировать URL.Любое автоматизированное решение будет несовершенным, и вы все равно будете вручную модерировать.

2 голосов
/ 31 января 2011

Ручная модерация, возможно.Я не могу придумать какой-либо способ автоматизации этого, кроме использования какого-либо черного списка, но даже тогда это не всегда надежно, так как более новые сайты могут отсутствовать в списке.

Кроме того, вы можете попробовать использовать cURLи загрузку страницы индекса и поиск определенных ключевых слов, которые поднимают красный флаг, а затем, возможно, удерживают их для проверки вручную.

1004 * я предложил бы иметь список этих ключевых слов в массиве (порно, секс, и т.д.).Если на индексной странице, которую вы загрузили с помощью cURL, есть какое-либо из этих ключевых слов, отклоните или отметьте для модерации.

Это ненадежно и не является наиболее оптимизированным способом утверждения ссылок.Вы должны иметь ручную модерацию независимо от того, но если вы хотите автоматизировать ее, это возможный маршрут для вас.

0 голосов
/ 31 января 2011

Вы можете создать небольшую систему мониторинга, которая будет передавать этот контент, созданный пользователем

, в очередь утверждений, к которой имеют доступ только администраторы, чтобы утвердить контент, который должен

отображаться на сайте

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...