Лучшие практики для службы поиска URL? Как не быть вектором атаки? - PullRequest
4 голосов
/ 01 марта 2009

Я работаю с веб-инструментом, который, учитывая URL, извлечет текст и даст пользователю некоторую статистику по контенту.

Я обеспокоен тем, что предоставление пользователям способа инициировать запрос GET из моего ящика на любой произвольный URL в сети может служить вектором для атак (например, до http://undefended.box/broken-sw/admin?do_something_bad).

Есть ли способы минимизировать этот риск? Есть ли рекомендации по предоставлению общедоступных возможностей поиска URL-адресов?

Некоторые идеи, о которых я думал:

  • Чествование robots.txt
  • принятие или отклонение только определенных шаблонов URL
  • проверка черного / белого списка соответствующих сайтов (если такая вещь существует)
  • работает через общеизвестный сторонний публичный веб-прокси, исходя из предположения, что они уже встроили эти меры безопасности

Спасибо за вашу помощь.

Редактировать: он будет оценивать только HTML или текстовое содержимое без загрузки или оценки связанных скриптов, изображений и т. Д. Если HTML, я буду использовать анализатор HTML.

1 Ответ

2 голосов
/ 01 марта 2009

Будет ли статистика только относительно текста в документе? Собираетесь ли вы оценить это с помощью анализатора HTML?

Если вы собираетесь анализировать только текст, то есть без загрузки дополнительных ссылок, оценки сценариев и т. Д., Тогда риск менее серьезен.

Вероятно, не мешало бы передавать каждый загруженный файл через антивирусную программу. Вы также должны ограничить GET определенными типами контента (т.е. не загружать двоичные файлы; убедитесь, что это какая-то кодировка текста).

...