Прежде всего, скорость вашего компьютера не будет ограничивающим фактором; Что касается соединения, вы должны искусственно ограничить скорость вашего сканера - большинство сайтов будут запрещать ваш IP-адрес, если вы начнете их использовать. Другими словами, не сканируйте сайт слишком быстро (10+ секунд на запрос должно быть в порядке с 99,99% сайтов, но переходите ниже этого уровня на свой страх и риск).
Итак, хотя вы могли бы сканировать один сайт в нескольких потоках, я бы предложил, чтобы каждый поток сканировал отдельный сайт (проверьте, не является ли он также общим IP-адресом); таким образом, вы могли бы насыщать свою связь меньшим шансом быть заблокированным на паутине.
Некоторые сайты не хотят, чтобы вы сканировали части сайта, и есть часто используемый механизм, которому вы должны следовать: файл robots.txt . Прочитайте связанный сайт и реализуйте это.
Обратите внимание, что некоторые сайты вообще запрещают любое автоматическое сканирование; в зависимости от юрисдикции сайта (ваша также может применяться), нарушение этого может быть незаконным (вы несете ответственность за то, что делает ваш сценарий, «робот сделал это» даже не оправдание, а тем более защита).