Nutch 2.x: передача информации с одной веб-страницы на другую для индексации с помощьюasticsearch - PullRequest
0 голосов
/ 07 июня 2018

Я использую Nutch 2.x для сканирования домена, где каждая html-страница имеет ссылку на PDF-документ.

  1. Для каждой html-страницы я использую плагин для извлечения информации и добавления ее к метаданным.
  2. Для каждого pdf-документа анализатор tika извлекает текст.

Что я хочу сделать, так это объединить данные, извлеченные из html-страницы, и текст соответствующего pdf-документа и проиндексировать их все с помощьюasticsearch.

Я думал о том, чтобы сделать это при разборе или индексировании PDF-файла путем доступа к веб-странице соответствующей HTML-страницы, но я не смог найти способ сделать это.

Возможно ли это?Если нет, я буду признателен за любые предложения.

Спасибо!

1 Ответ

0 голосов
/ 07 июня 2018

Я столкнулся с аналогичной проблемой при использовании Nutch 1.x (но при работе с изображениями), мой подход был в основном написать пользовательский ScoringFilter, который брал информацию из HTMl и распространял ее в CrawlDatum исходящих ссылок.(в моем случае только для ссылок указывают на изображения).

В Nutch 2.x все немного по-другому, но я думаю, что нечто подобное можно было бы сделать в методе distributeScoreToOutlinks * 1006.*.В этом случае у вас нет доступа к объекту WebPage исходящих ссылок, но у вас есть доступ к объекту ScoreDatum.

...