У меня есть URL-адрес (http://someurl/test.zip). Размер zip-файла ~ 56M. Прежде всего я не хочу получать / анализировать файлы размером более 5 МБ. При попытке получить этот URL-адрес я получаю "Aborting"с 50 зависшими потоками ". Я использую скрипт обхода натча со значениями по умолчанию.
Печать:
-activeThreads=50, spinWaiting=49, fetchQueues.totalSize=1, fetchQueues.getQueueCount=1
-activeThreads=50, spinWaiting=49, fetchQueues.totalSize=1, fetchQueues.getQueueCount=1
-activeThreads=50, spinWaiting=49, fetchQueues.totalSize=1, fetchQueues.getQueueCount=1
Aborting with 50 hung threads.
Thread #0 hung while processing https://someurl/test.zip
Thread #1 hung while processing null
Thread #2 hung while processing null
Thread #3 hung while processing null
Thread #4 hung while processing null
Thread #5 hung while processing null
Thread #6 hung while processing null
Thread #7 hung while
Я установил http.content.limit равным 65 КБ.
nutch-site.xml:
<property>
<name>http.content.limit</name>
<value>65536</value>
</property>
Как исключить URL-адреса, содержащие большие файлы? И почему он прерывается из-за зависших потоков?