Сканирование Nutch не выполняется после нескольких итераций с исключением времени выполнения - PullRequest
0 голосов
/ 22 января 2019

Мы используем версию Nutch 2.3.1-src.Выполнение команды сканирования с глубиной 200.Но после нескольких итераций выборка завершается неудачно с упомянутым ниже исключением времени выполнения.

java.lang.RuntimeException: java.lang.IllegalArgumentException: KeyValue size too large
Exception at GoraRecordWriter.class while writing to datastore: KeyValue size too large

Команда сканирования:

/Data/Apache/apache-nutch-2.3.1/runtime/local/bin/crawl /Data/Apache/apache-nutch-2.3.1/runtime/local/urls crawl-nutch http://localhost:9200/test/ 200

1 Ответ

0 голосов
/ 24 января 2019

можно спросить, какой бэкэнд вы используете? Если это HBase, значит, вы обновили конфигурацию с максимальным размером ключа. Эта конфигурация находится в файле hbase-site.xml, который по умолчанию составляет 10 МБ

<property> <name>hbase.client.keyvalue.maxsize</name> <value>10485760</value> </property>

...