Nutch - поисковая система, созданная Apache на основе бэкэнда Lucene.
Взгляните на файл github robots.txt:
https://github.com/robots.txt
Помимо определенных движков (например, Google), он говорит:
User-agent: *
Disallow: /
Поэтому вы не можете сканировать GitHub с помощью Nutch.
Ползать github с помощью поисковой системы кажется плохой идеей. Будет много похожих страниц, которые вы будете загружать без причины. Что не так с поиском в GitHub?
Пожалуйста, попробуйте обобщить ваш вопрос. Чего ты надеешься достичь, ползти на github с Nutch? Какие поиски вы хотите выполнить?