IMO это на самом деле не имеет значения - поскольку эти URL-адреса ссылаются на различные части Интернета, вы можете быть вполне уверены, что ваш сканер будет сканировать большинство темных (то есть связанных) страниц в Интернете, рано или поздно(возможно, позже, учитывая размер Интернета).
Я бы предложил главную страницу какого-нибудь сайта, на которой есть много ссылок, ведущих в разные места в Интернете (подсказка), и перейдем оттуда..
Проблема, с которой вы столкнетесь, не будет в нехватке ссылок, где бы вы ни начинали - напротив, у вас будет полная противоположность, и вам нужно будет реализовать алгоритм, чтобы отслеживать, где вы 'Вы были, куда вам следует идти дальше и как избежать полубесконечных и бесконечных циклов.