Question

У меня есть URL-адрес (http://someurl/test.zip). Размер zip-файла ~ 56M. Прежде всего я не хочу получать / анализировать файлы размером более 5 МБ. При попытке получить этот URL-адрес я получаю "Aborting"с 50 зависшими потоками ". Я использую скрипт обхода натча со значениями по умолчанию.

Печать:

-activeThreads=50, spinWaiting=49, fetchQueues.totalSize=1, fetchQueues.getQueueCount=1
-activeThreads=50, spinWaiting=49, fetchQueues.totalSize=1, fetchQueues.getQueueCount=1
-activeThreads=50, spinWaiting=49, fetchQueues.totalSize=1, fetchQueues.getQueueCount=1
Aborting with 50 hung threads.
Thread #0 hung while processing https://someurl/test.zip
Thread #1 hung while processing null
Thread #2 hung while processing null
Thread #3 hung while processing null
Thread #4 hung while processing null
Thread #5 hung while processing null
Thread #6 hung while processing null
Thread #7 hung while

Я установил http.content.limit равным 65 КБ.

nutch-site.xml:

<property>
    <name>http.content.limit</name>
    <value>65536</value>
</property>

Как исключить URL-адреса, содержащие большие файлы? И почему он прерывается из-за зависших потоков?

сборщик орехов прерывается с подвешенными нитями

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

сборщик орехов прерывается с подвешенными нитями

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы