С точки зрения потоковой передачи таблицы Hive, построенные заранее, выгруженные в Spark Streaming или Flink, по большей части будут работать нормально, но что, если схема вывода Hive в задании Spark изменится?Здесь вам может понадобиться что-то вроде Streamsets , Kafka Connect HDFS Connector или Apache Gobblin
Кроме того, имейте в виду, что HDFS не нравится работать с крошечными файлами, поэтому настройте большойразмер партии перед HDFS будет полезен для последующего потребления Hive