Какие банки от Nutch мне нужно, чтобы написать свой собственный Crawl.java - PullRequest
1 голос
/ 22 июля 2010

Я пытаюсь написать свою собственную версию Crawl.java из Nutch, где я бы делал немного разные вещи. Я не хочу работать с исходным кодом Nutch. Я просто хочу импортировать несколько банок и начать работу с моим приложением. Как мне предоставить conf / crawl-urlfilter.txt и другие необходимые файлы conf?

Может ли кто-нибудь помочь мне здесь? Спасибо

1 Ответ

1 голос
/ 22 июля 2010

Один простой способ - упаковать свой код в банку. Не забудьте включить основной в один из классов, с которого начинается сканирование. Перетащите этот файл jar в папку lib вашей установки Nutch. Теперь вы можете начать сканирование с помощью следующей команды (при условии, что ваш PATH правильно настроен на поиск команды nutch ):

nutch com.xyz.YourCrawlerMain

где "com.xyz.YourCrawlerMain" представляет ваш основной класс для запуска сканирования.

Это запустит ваш гусеничный механизм с правильно установленным путем к классу Nutch.

Для файлов конфигурации просто обновите их прямо в папке conf вашей установки Nutch.

UPDATE

Я работаю над чем-то похожим, и я могу настроить Nutch из своего приложения с этими настройками: установите в вашем classpath папку Nutch (чтобы он мог найти плагины), папку Nutch / conf и включите все баночки из Nutch / lib + nutch.jar из папки NUTCH.

Но будьте осторожны, если ваше приложение работает в веб-контейнере. Мне пришлось возиться с classpath, чтобы все заработало ...

...