Как хранить данные в определенных каталогах после чтения их от потребителя kafka? - PullRequest
0 голосов
/ 06 марта 2019

У меня есть тема Kafka, из которой мне нужно читать данные JSON с помощью потребителя, но на основе определенных тегов в данных мне нужно хранить их в разных каталогах на диске.

Как мне этого добиться?Можно ли выполнить прямой анализ данных перед их сохранением?

1 Ответ

0 голосов
/ 06 марта 2019

Не ясно где эти каталоги будут существовать, но вы можете попробовать использовать HDFS Kafka Connect (который будет работать с файловой системой, совместимой с HDFS, включая локальный диск) с FieldPartitioner, чтобы указать, какие поля в записях Kafka должны быть сделаны в виде каталогов в формате /topic-dir/topic-name/field1=value/field2=value

Для записи на локальный диск установите store.url=file:///some/path

В противном случае Spark, FlinkОбычный потребитель Kafka и т. д. Вы можете использовать эти данные и создавать каталоги самостоятельно.

Можно ли выполнить прямой анализ данных перед их сохранением?

Зависит от того, как вы потребляете данные ...

...