Алгоритм оценки на основе домена для Apache Nutch 2.3.1 - PullRequest
0 голосов
/ 13 ноября 2018

Я настроил экосистему Hadoop / Hbase и Nutch 2.3.1 для сканирования нескольких доменов из Интернета.Crawler не ограничивается только семенами и будет расти со временем (из исходящих ссылок).Я должен настроить рейтинг в соответствии со своими потребностями.Я хочу установить оценку централизованно для каждого домена и для любого документа, его оценка будет выбираться из его домена, а не уровня документа.Просто чтобы прояснить ситуацию

S = S1 + S2 + S3 + ... + Sn
Sd = S/(total docs)

Где S - это общий балл, т. Е. Сумма баллов каждого документа.Sd - это средняя общая оценка.S1 (и т. Д.) - это оценка, которая будет присвоена документу в зависимости от его качества.Я в основном хочу сделать предположение о новом поступающем документе, хорошо ли это получить или нет.

Для этого, его реализация проблематична (это может быть из-за того, что я новичок), и я не мог добавитьновый документ в зачетных классах в Nutch.Прежде всего, возможно ли это или есть альтернативное и лучшее решение?и если да, то как добавить новый (доменный) документ, если он не существует в хранилище данных во время выполнения.

...