Полагаю, вы говорите о структурированной потоковой передаче.
Я не знаком с ZeroMQ, но важным моментом в источниках структурированной потоковой передачи Spark является возможность воспроизведения (для обеспечения отказоустойчивости), которая, если я понимаю,правильно, ZeroMQ не доставляет из коробки.
Практическим подходом будет буферизация данных либо в Kafka с использованием KafkaSource, либо в виде файлов в (локальная FS / NFS, HDFS, S3) и использование FileSource для чтения.Ср Spark Docs .Если вы используете FileSource, убедитесь, что вы ничего не добавляете к существующему файлу во входном каталоге FileSource, а перемещаете их в каталог атомарно.