Я использую Nutch 2.x для сканирования домена, где каждая html-страница имеет ссылку на PDF-документ.
- Для каждой html-страницы я использую плагин для извлечения информации и добавления ее к метаданным.
- Для каждого pdf-документа анализатор tika извлекает текст.
Что я хочу сделать, так это объединить данные, извлеченные из html-страницы, и текст соответствующего pdf-документа и проиндексировать их все с помощьюasticsearch.
Я думал о том, чтобы сделать это при разборе или индексировании PDF-файла путем доступа к веб-странице соответствующей HTML-страницы, но я не смог найти способ сделать это.
Возможно ли это?Если нет, я буду признателен за любые предложения.
Спасибо!