Nutch в основном сканирует ссылки на страницах.
Однако на странице Индия нет ссылок, по которым он может перейти на упомянутую вами страницу Дели .
Таким образом, он не сможет перейти на эту страницу вниз.
Вы можете создать свою собственную фиктивную HTML-страницу, выступающую в качестве начального URL для индексации, и иметь все ссылки, которые вы хотите, чтобы Nutch проиндексировал.
Что такое поле поиска по умолчанию в вашей схеме?
Обычно это текстовое поле, и запрос на delhi ищет в этом поле совпадения.
Поскольку *:*
возвращает результат delhi, а delhiне.Он не совпадает с индексированными токенами в поле, в котором он ищет.
Какой тип поля определен для url в схеме?
Вы можете скопировать поле в другое поле с анализом текста, что приведет кДели-токен и запрос url_copy:delhi
должны вернуть вам результаты.