Вам понадобится не только текстовое содержимое, но и метаданные, поскольку именно здесь хранится заголовок.Посмотрите, что JSoupParserBolt излучает в потоке по умолчанию, и подключите болт HDFS к его выходу.
Это похоже на то, что мы делаем с модулем WARC , который расширяет болт HDFS, за исключением того, что болт WARC не требует ничего из этапа анализа и может быть подключен прямо к выходуСборщик.