Прочитав « Почему Джонни не может пентестировать: анализ сканеров веб-уязвимостей черного ящика », стало понятно, что существуют веб-сайты, такие как приложения календаря, с которыми сканеры сталкиваются с трудностями. Это, казалось бы, «бесконечные» сайты, которые могут содержать ссылки на следующий день / месяц / год и т. Д.
Кроме того, некоторые веб-сайты устанавливают ловушки для пауков или могут непреднамеренно создать аналогичную систему (где ссылки на страницы никогда не заканчиваются).
Если я а) имею право владельца сайта свободно сканировать свой веб-сайт и б) желаю использовать scrapy, какой метод я могу использовать, чтобы определить, действительно ли я столкнулся с "бесконечным" веб-сайтом, а не конкретным к любому примеру?
Примечание. Я говорю не о «бесконечной» прокрутке, а о бесконечных страницах.
Примером бесконечного веб-сайта может быть (хотя и бессмысленно и тривиально):
<?php
if(isset($_GET['count'])){
$count = intval($_GET['count']);
$previous = $count - 1;
$next = $count + 1;
?>
<a href="?count=<?php echo $previous;?>">< Previous</a>
Current: <?php echo $count;?>
<a href="?count=<?php echo $next;?>">Next ></a>
<?
}
?>
, где вы просто продолжаете нажимать на следующую и предыдущую, чтобы открыть больше страниц.