Я настроил Nutch 2.3.1 с полной экосистемой Hadoop / Hbase на небольшом кластере. Мне любопытно по поводу алгоритма оценки, используемого в Nutch. Я нашел и использовал фильтр очков в Nutch. Чтобы найти его, у меня есть контрольная оценка на разных шагах в Nutch IN (dbupdate и генерация фазы), как указано в Nutch WIKI . Но я обнаружил, что каждый счет документа всегда остается равным нулю, независимо от того, какую итерацию я могу выполнить и сколько документов я получу. Возникла какая-то проблема в реализации opic, или мне не хватает некоторых его настроек.
Я заметил, что поле _csh_
, содержащее деньги, удаляется на этапе получения из соответствующей таблицы в Hbase.