Nutch и sitemap.xml - PullRequest
       50

Nutch и sitemap.xml

1 голос
/ 22 октября 2010

apache-nutch поддерживает файлы Sitemap? или как я могу реализовать это сам? как я могу использовать поле приоритета, должно ли оно быть умножено на поле повышения?

Ответы [ 2 ]

1 голос
/ 18 февраля 2014

Я думаю, они поддерживают это сейчас. Я нашел это по этой ссылке

https://wiki.apache.org/nutch/SitemapFeature

1 голос
/ 06 января 2011

Не то, чтобы я знал.В зависимости от поведения, которое вы ожидаете, это несколько реализаций, можете ли вы быть более конкретными?Например: + вы можете сделать так, чтобы новые отправленные файлы Sitemap были «внедрены» с высокой оценкой, поэтому они будут сканироваться раньше.Для этого просто добавьте команду inject перед началом нового цикла сканирования / извлечения / индексирования + вы можете создать плагин скоринга, который увеличит URL, найденный в файлах сайта ... Но вы не можете определить периоды повторного сканирования на уровне URL, так каккарта сайта будет указывать.Nutch имеет встроенную функцию, которая будет чаще сканировать URL-адрес, который меняется скорее наоборот.Однако вы можете решить повысить оценку URL с частой частотой обновления, чтобы они сканировались раньше ...

...