Question

Я настроил Nutch 2.3.1 с экосистемой Hadoop / Hbase для сканирования контента на языке урду. Для определения языка я настроил сборщик и нахожу язык на этом этапе. Если в документе недостаточно языка урду (в байтах), я намеренно устанавливаю его статус «исчез», чтобы прекратить наращивать этот край с нулевым содержимым. Я также должен найти новые домены урду.

Я все еще сталкиваюсь с проблемой выбора URL для получения. Со временем количество входящих ссылок увеличивается и включает в себя множество тех URL, которых нет в урду. Nutch выбирает (генератор) около 90% этих URL, которые не содержат урду. По этой причине мои ресурсы тратятся впустую из-за очень небольшого количества нового контента на урду.

Как я могу заставить Nutch отдавать предпочтение тем документам домена, которые могут содержать контент на урду? Я думаю, что я должен как-то настроить алгоритм ранжирования. Каковы возможные способы достижения моей цели?

Jorge Luis · Answer 1 · 27 августа 2018

Я думаю, что самым простым решением было бы назначить действительно низкий балл этим неважным URL-адресам. И, возможно, установить минимальный порог оценки для генератора (https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Generator.java#L93).

Конечно, все это связано с определенными проблемами, может случиться так, что в какой-то момент у вас закончились URL для получения. Потому что либо генератор не нашел подходящего кандидата (порог оценки, либо не осталось URL-адресов урду для извлечения), либо все URL-адреса (которые вы обнаружили) уже получены.

Обычно хорошей идеей является планирование таких крайних случаев.

Алгоритм ранжирования Apache Nutch для конкретного языкового контента

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Алгоритм ранжирования Apache Nutch для конкретного языкового контента

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы