Nutch Fetcher: количество URL, извлеченных за одну секунду - PullRequest
1 голос
/ 29 июня 2011

Я хотел бы знать свойство, которое обозначает, сколько URL будет выбираться в секунду.Я видел из сети, что это на самом деле количество задач на карте * количество потоков.Но в моем случае цифры не совпадают, когда я проверяю их.Следовательно, есть ли какое-либо свойство для указания количества URL-адресов, которые должны выбираться в секунду?

regards,

V.Sriram

1 Ответ

2 голосов
/ 08 июля 2011

Я сам решил эту проблему. Фактическая скорость выборки зависит от количества задач сопоставления, которые выполняются в течение срока действия сборщика, и от потока для каждого хоста. Кроме того, количество потоков извлечения играет роль здесь.

Например, если общее количество задач карты равно 8, а количество доменов во входных URL-адресах равно 3, то в этом цикле выборки будет выполняться только 3 процесса карты. И если у каждого процесса карты достаточно URL-адресов из одного и того же домена, которые он будет запускать для fetcher.timelimit.mins, то общая скорость выборки системы будет равна сумме частот выборки этих отдельных задач карты.

...