Поток PySpark в БД в Таблицу - PullRequest
0 голосов
/ 21 июня 2019

Я создаю потоковый конвейер в реальном времени с PySpark в качестве механизма обработки данных.Я хочу записать данные в базу данных NoSQL, чтобы потом подключить ее к Таблице и визуализировать мою информацию.

Я уже пытался подключить PySpark к MongoDB и Cassandra, но эти базы данных не позволяют мне записывать потоковые данные.Большая часть документации, которую я нашел, не работает для потоковой передачи данных или полностью в Scala, а не в Python.

Для Mongo я попытался:

spark = SparkSession.builder\
                    .config("spark.mongodb.input.uri", "mongodb://127.0.0.1/test.coll") \
                    .appName('Tweet Sentiment Analysis')\
                    .getOrCreate()

# Spark Processing Code with a table called location

locationStream = location\
    .writeStream\
    .trigger(processingTime='3 seconds')\
    .queryName("Places")\
    .format("memory")\
    .start()


location.write.format("com.mongodb.spark.sql.DefaultSource").mode("append").save()

Я хотел бы знать 1) Как записать потоковые данные в одну из этих баз данных 2) или, альтернативно, как преобразовать мои потоковые данные в пакетысохранить данные

...