Я хотел бы сделать потоковую передачу Spark с Kafka на HDFS, как я могу сохранить rdds, сохраненные как с другим именем файла на основе метки времени, основанной на создании имени файла? Я полагаю, что мы могли бы использовать функцию partitionBy для хранения в определенном разделе, но могли бы мы также контролировать имена файлов, написанные на основе написанной метки времени?
Примечание. Мне известно, что мы можем использовать KafkaConnect, но я бы хотел использовать потоковую передачу Spark из Kafka в HDFS
.