Я настроил Nutch 2.3.1 с экосистемой Hadoop / Hbase для сканирования контента на языке урду. Для определения языка я настроил сборщик и нахожу язык на этом этапе. Если в документе недостаточно языка урду (в байтах), я намеренно устанавливаю его статус «исчез», чтобы прекратить наращивать этот край с нулевым содержимым. Я также должен найти новые домены урду.
Я все еще сталкиваюсь с проблемой выбора URL для получения. Со временем количество входящих ссылок увеличивается и включает в себя множество тех URL, которых нет в урду. Nutch выбирает (генератор) около 90% этих URL, которые не содержат урду. По этой причине мои ресурсы тратятся впустую из-за очень небольшого количества нового контента на урду.
Как я могу заставить Nutch отдавать предпочтение тем документам домена, которые могут содержать контент на урду? Я думаю, что я должен как-то настроить алгоритм ранжирования. Каковы возможные способы достижения моей цели?