Вы можете открыть необработанный TCP-сокет в Spark с помощью socketTextStream
для объекта StreamingContext, но проблема, с которой я столкнулся, заключается в том, что исполнители отключаются, драйверы перемещаются на новые узлы, и поэтому вам нужен какой-то тип обслуживаниясредство обнаружения / балансировки нагрузки динамически, зная, где находится сокет назначения.
Сравните это с использованием Kafka, где соединение с одним брокером Kafka может загрузить весь кластер.
Вы говорите, что вам не нужносохранение, хорошо, тогда настройте тему Kafka, чтобы иметь очень низкое значение хранения.
Но, в конце концов, вы просто запрашиваете сокет TCP, а Spark или Kafka - это просто деталь реализации.