Nutch API совет - PullRequest
       8

Nutch API совет

6 голосов
/ 03 декабря 2010

Я работаю над проектом, в котором мне нужен зрелый сканер, чтобы выполнить какую-то работу, и я оцениваю Nutch для этой цели. Мои текущие потребности относительно просты: мне нужен сканер, способный сохранять данные на диск, и он мне нужен, чтобы иметь возможность пересканировать только обновленные ресурсы сайта и пропустить уже сканированные части. У кого-нибудь есть опыт работы с кодом Nutch напрямую в Java, а не через командную строку. Я хотел бы начать с простого: создать гусеничный (или аналогичный), минимально настроить его и запустить, ничего сложного. Есть ли какой-то пример для этого или какой-то ресурс, на который я должен обратить внимание? Я перебираю документацию по Nutch, но в основном она касается командной строки, поиска и прочего. Насколько полезен модуль сканирования Nutch без индексации и поиска? Любая помощь приветствуется. Благодарю.

1 Ответ

1 голос
/ 03 декабря 2010

Натч сильно отличается от того, что вы когда-либо практиковали, скорее всего. Поскольку это нечто вроде фреймворка, у которого есть не только фронт для запросов и поиска, хотя solr кажется более мощным, чем родной интерфейс поиска Nutch. Он также имеет сканирующую часть и индексирование (в индекс Lucene).

Если вы хотите использовать сканирование для других целей, кроме поиска, вам необходимо разработать собственные программы и ознакомиться с программированием на Hadoop и MapReduce.

Не уверен, что вы хотите делать со сканированием, но не похоже, что Nutch - это решение

...