URL-адрес для HdfsBolt - PullRequest
       29

URL-адрес для HdfsBolt

0 голосов
/ 01 июня 2018

В топологии ES я хотел бы проиндексировать URL в ElasticSearch и переслать кортеж (url, [title, content]) в хранилище Hdfs.Я обнаружил, что Apache-storm имеет правильный Hdfs bolt , который выглядит как прямая реализация.Я хотел бы знать, где искать этот кортеж в топологии сканирования ES.Не могли бы вы указать, какой болт имеет эти данные?

1 Ответ

0 голосов
/ 04 июня 2018

Вам понадобится не только текстовое содержимое, но и метаданные, поскольку именно здесь хранится заголовок.Посмотрите, что JSoupParserBolt излучает в потоке по умолчанию, и подключите болт HDFS к его выходу.

Это похоже на то, что мы делаем с модулем WARC , который расширяет болт HDFS, за исключением того, что болт WARC не требует ничего из этапа анализа и может быть подключен прямо к выходуСборщик.

...