У нас есть некоторые данные (миллионы) в таблицах ульев, которые появляются каждый день. На следующий день, после завершения ночного приема, разные приложения запрашивают у нас данные (используя sql)
Мы берем это sql и вызываем Spark
spark.sqlContext.sql(statement) // hive-metastore integration is enabled
Это приводит к слишком большому использованию памяти в драйвере искры, можем ли мы использовать потоковую передачу искр (или структурированную потоковую передачу), чтобы передавать результаты в конвейерном режиме вместо того, чтобы собирать все в драйвере и затем отправлять клиентам?
Мы не хотим отправлять данные сразу после их поступления (в типичных потоковых приложениях), а хотим отправлять потоковые данные клиентам, когда они запрашивают (PULL) данные.