Алгоритм ранжирования Apache Nutch для конкретного языкового контента - PullRequest
0 голосов
/ 27 августа 2018

Я настроил Nutch 2.3.1 с экосистемой Hadoop / Hbase для сканирования контента на языке урду. Для определения языка я настроил сборщик и нахожу язык на этом этапе. Если в документе недостаточно языка урду (в байтах), я намеренно устанавливаю его статус «исчез», чтобы прекратить наращивать этот край с нулевым содержимым. Я также должен найти новые домены урду.

Я все еще сталкиваюсь с проблемой выбора URL для получения. Со временем количество входящих ссылок увеличивается и включает в себя множество тех URL, которых нет в урду. Nutch выбирает (генератор) около 90% этих URL, которые не содержат урду. По этой причине мои ресурсы тратятся впустую из-за очень небольшого количества нового контента на урду.

Как я могу заставить Nutch отдавать предпочтение тем документам домена, которые могут содержать контент на урду? Я думаю, что я должен как-то настроить алгоритм ранжирования. Каковы возможные способы достижения моей цели?

1 Ответ

0 голосов
/ 27 августа 2018

Я думаю, что самым простым решением было бы назначить действительно низкий балл этим неважным URL-адресам. И, возможно, установить минимальный порог оценки для генератора (https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Generator.java#L93).

Конечно, все это связано с определенными проблемами, может случиться так, что в какой-то момент у вас закончились URL для получения. Потому что либо генератор не нашел подходящего кандидата (порог оценки, либо не осталось URL-адресов урду для извлечения), либо все URL-адреса (которые вы обнаружили) уже получены.

Обычно хорошей идеей является планирование таких крайних случаев.

...