Я создаю потоковый конвейер в реальном времени с PySpark в качестве механизма обработки данных.Я хочу записать данные в базу данных NoSQL, чтобы потом подключить ее к Таблице и визуализировать мою информацию.
Я уже пытался подключить PySpark к MongoDB и Cassandra, но эти базы данных не позволяют мне записывать потоковые данные.Большая часть документации, которую я нашел, не работает для потоковой передачи данных или полностью в Scala, а не в Python.
Для Mongo я попытался:
spark = SparkSession.builder\
.config("spark.mongodb.input.uri", "mongodb://127.0.0.1/test.coll") \
.appName('Tweet Sentiment Analysis')\
.getOrCreate()
# Spark Processing Code with a table called location
locationStream = location\
.writeStream\
.trigger(processingTime='3 seconds')\
.queryName("Places")\
.format("memory")\
.start()
location.write.format("com.mongodb.spark.sql.DefaultSource").mode("append").save()
Я хотел бы знать 1) Как записать потоковые данные в одну из этих баз данных 2) или, альтернативно, как преобразовать мои потоковые данные в пакетысохранить данные