Попробуйте HTTrack
О том, как они это делают:
Индексация начинается с обозначенной начальной точки (входа, если вы предпочитаете).Оттуда, паук рекурсивно следует за всеми гиперссылками до заданной глубины.
Пауки поисковой системы работают так же, как это , но есть много ползущих одновременно, и другие факторы учитываются.Например, недавно созданный пост здесь, в SO, будет очень быстро найден Google, но обновление на веб-сайте с низким трафиком будет получено даже через несколько дней.