Nutch, запрашивающий на лету - PullRequest
0 голосов
/ 09 февраля 2011

Я новичок в психологии Ну, сравнительно гораздо новее для Solr, чем Nutch:)

Я использую Nutch в течение последних двух недель, и я хотел знать, могу ли я запросить или выполнить поиск на своих обходах Nutch на лету (до его завершения). Я спрашиваю об этом, потому что сайты, которые я сканирую, действительно огромны, и для завершения сканирования требуется около 3-4 дней. Я хочу проанализировать некоторые быстрые результаты, пока сканер натч все еще сканирует URL-адреса. Кто-то предложил мне, чтобы Солр сделал это возможным.

Я следовал инструкциям в http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/ для этого. Я вижу только введенные URL отображаются в поиске Solr. Я знаю, что сделал что-то действительно глупое, и сканирование никогда не происходило, я чувствую, что мне здесь не хватает информации. Но я сделал все шаги, упомянутые в ссылке. Я думаю, что где-то в процессе должно произойти сканирование, которое пропущено.

Просто хотел посмотреть, сможет ли кто-нибудь помочь мне указать на это и где я ошибся в процессе. Прости мою глупость и спасибо за терпение.

Cheers, Аби

1 Ответ

0 голосов
/ 11 февраля 2011

Это невозможно. Однако вы можете разделить цикл сканирования на меньшее количество URL-адресов, чтобы он чаще публиковал результаты с помощью этой команды
nutch generate crawl/crawldb crawl/segments -topN <the limit>
Если вы используете команду onestop craw l, она должна быть такой же.

У меня, как правило, есть схема чанкинга на 24 часа.

...