Вам нужно будет добавить некоторые возможности в черные списки сайтов / доменов или других объектов (диапазоны IP-адресов, ASN и т. Д.), Чтобы избежать попадания паука в спам-сайты.
Вам понадобится реализация HTTP с большим контролем времени и поведения. Ожидайте, что многие сайты будут отправлять обратно недействительные ответы, огромные ответы, заголовки мусора, или просто оставить соединение открытым на неопределенное время без ответа и т. Д.
Также не доверяйте статусу 200, означающему «страница существует». По моему опыту, довольно большая часть сайтов отправляет обратно 200 для «Не найдено» или других ошибок (вместе с большим HTML-документом).