У меня есть несколько локальных серверов разработки с обратной связью, которые я использую в Centos для отработки различных технологий (Flask, ElasticSearch, Apache Airflow и т. Д.). Я также изучаю Pyspark и могу читать данные и работать с RDD, а также с Dataframes.
Однако в конечном итоге мне нужно научиться работать с потоковыми RDD / микропакетами (с вероятностью Kafka или Flume в качестве источника) и Pyspark. Я хотел бы сделать это на 127.0.0.1:xxxxx как-то.
Есть ли способ настроить Spark Streaming Application для локального тестирования на одной машине?