будет читать коллекцию mongodb из pyspark, замедляет работу mongodb или приведет к блокировке записи и сбоям mongodb - PullRequest
0 голосов
/ 28 февраля 2020

так я читаю данные из репликации mongodb.

def read_col(self, collection_name, spark):
    return spark.read.format('com.mongodb.spark.sql.DefaultSource') \
        .option('uri', '{}/{}.{}?authSource={}'
                .format(self.mongo_url, self.mongo_db, collection_name, self.auth_source)) \
        .option('sampleSize', 50000)\
        .load()

Я читаю большие БД для обработки данных с помощью pyspark. Но бэкэнд-команда говорит, потому что я читаю данные из mongodb, в то время блокировка записи происходит при репликации mongodb, и основной mongodb не может синхронизировать c с репликацией, и, наконец, сбой mongodb, но запись имеет больший приоритет, чем чтение, не так ли ? Может кто-нибудь подсказать свое мнение по этому вопросу

...