Я работаю с веб-инструментом, который, учитывая URL, извлечет текст и даст пользователю некоторую статистику по контенту.
Я обеспокоен тем, что предоставление пользователям способа инициировать запрос GET из моего ящика на любой произвольный URL в сети может служить вектором для атак (например, до http://undefended.box/broken-sw/admin?do_something_bad
).
Есть ли способы минимизировать этот риск? Есть ли рекомендации по предоставлению общедоступных возможностей поиска URL-адресов?
Некоторые идеи, о которых я думал:
- Чествование
robots.txt
- принятие или отклонение только определенных шаблонов URL
- проверка черного / белого списка соответствующих сайтов (если такая вещь существует)
- работает через общеизвестный сторонний публичный веб-прокси, исходя из предположения, что они уже встроили эти меры безопасности
Спасибо за вашу помощь.
Редактировать: он будет оценивать только HTML или текстовое содержимое без загрузки или оценки связанных скриптов, изображений и т. Д. Если HTML, я буду использовать анализатор HTML.