Apache Nutch 2.3.1 фильтр не работает - PullRequest
0 голосов
/ 09 мая 2018

Я настроил Nutch 2.3.1 с полной экосистемой Hadoop / Hbase на небольшом кластере. Мне любопытно по поводу алгоритма оценки, используемого в Nutch. Я нашел и использовал фильтр очков в Nutch. Чтобы найти его, у меня есть контрольная оценка на разных шагах в Nutch IN (dbupdate и генерация фазы), как указано в Nutch WIKI . Но я обнаружил, что каждый счет документа всегда остается равным нулю, независимо от того, какую итерацию я могу выполнить и сколько документов я получу. Возникла какая-то проблема в реализации opic, или мне не хватает некоторых его настроек.

Я заметил, что поле _csh_, содержащее деньги, удаляется на этапе получения из соответствующей таблицы в Hbase.

1 Ответ

0 голосов
/ 21 января 2019

Я решил это, поместив изменения в OPICScoringFilter.java

src / plugin / scoring-opic / src / java / org / apache / nutch / scoring / opic / OPICScoringFilter.java

Я поместил его в маркеры как UTF8.

-    row.getMetadata().put(CASH_KEY, ByteBuffer.wrap(Bytes.toBytes(score)));
+    row.getMarkers().put(CASH_KEY, new Utf8(Double.toString(score)));
...