При глубине = 10 и topN = 1000 в вашем индексе будет не более 10000 документов (если вы не сканируете повторно).Параметр глубины указывает, сколько итераций Nutch будет выполнять.Параметр 'topN' контролирует, сколько максимальных URL будет выбрано за одну итерацию.Таким образом, умножение «глубины» на «topN» дает приблизительное значение количества URL, которые будут проиндексированы.Это приблизительное значение, поскольку у вас могут быть URL-адреса, для которых истечет время ожидания или вы получите 404.
Если вы не хотите повторно сканировать, убедитесь, что установлено значение db.fetch.interval.defaultс достаточно высоким значением для завершения задания сканирования.Если задание сканирования не будет выполнено по истечении этого интервала, вы начнете повторное сканирование некоторых URL-адресов, поэтому число проиндексированных URL-адресов будет меньше, чем глубина * topN.