Один простой способ - упаковать свой код в банку. Не забудьте включить основной в один из классов, с которого начинается сканирование. Перетащите этот файл jar в папку lib вашей установки Nutch. Теперь вы можете начать сканирование с помощью следующей команды (при условии, что ваш PATH правильно настроен на поиск команды nutch ):
nutch com.xyz.YourCrawlerMain
где "com.xyz.YourCrawlerMain" представляет ваш основной класс для запуска сканирования.
Это запустит ваш гусеничный механизм с правильно установленным путем к классу Nutch.
Для файлов конфигурации просто обновите их прямо в папке conf вашей установки Nutch.
UPDATE
Я работаю над чем-то похожим, и я могу настроить Nutch из своего приложения с этими настройками: установите в вашем classpath папку Nutch (чтобы он мог найти плагины), папку Nutch / conf и включите все баночки из Nutch / lib + nutch.jar из папки NUTCH.
Но будьте осторожны, если ваше приложение работает в веб-контейнере. Мне пришлось возиться с classpath, чтобы все заработало ...