Чтение из MongoDB с использованием PySpark Python - PullRequest
0 голосов
/ 16 апреля 2020

Я новичок в Spark (PySpark) и MongoDB.

Я очень много учусь, как я go, но в моем коде Python я хочу подключиться к коллекции MongoDB и прочитать данные из этой коллекции.

Расположен MongoDB на локальной виртуальной машине - http://localhost: 27017

Кто-нибудь может мне помочь с этим синтаксисом? Я изо всех сил пытаюсь выяснить, как подключиться к нему.

Я пробовал ниже, но, похоже, просто возвращает пустые данные.

    client = MongoClient("localhost", 27017)
    db = client['Raw_Data']
    collection = db['Raw_Data_Collection']

    import pyspark
    from pyspark import SparkContext
    sc = SparkContext.getOrCreate();
    df = pyspark.read.format("mongodb://localhost").load()

    df = pyspark.read.format("mongo").option(client, "mongodb://localhost/Raw_Data.Raw_Data_Collection").load()

    if(df.count > 0):
        print("Not empty")
        df.show() 

Кто-нибудь может мне здесь помочь? Я полный новичок, поэтому приведенный выше код может быть выход!

1 Ответ

0 голосов
/ 21 апреля 2020

Вот как я читаю и пишу в пн go из Spark,

Пишу в Космос DB

CONNECTION_STRING = "mongodb: // cosmosdb-the-all-uri" df .write.format ("com.mongodb.spark. sql .DefaultSource"). option ("База данных", "ab c"). option ("uri", CONNECTION_STRING) .option ("Коллекция", " abc2 "). save ()

Чтение из базы данных Cosmos *

df = spark.read.format (" com.mongodb.spark. sql .DefaultSource "). option (" База данных "," ab c "). option (" Collection "," abc2 "). option (" uri ", CONNECTION_STRING) .load ()

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...