Укажите поля в pyspark при чтении из коллекции mongodb - PullRequest
1 голос
/ 20 июня 2020

Как мне изменить это, чтобы указать, какие поля я хочу просматривать из коллекции? Я не хочу просматривать всю коллекцию

df = my_spark.read.format("mongo").option("uri",
        "mongodb://localhost:27017/db_name.collection_name").load()

1 Ответ

0 голосов
/ 20 июня 2020

Если вы хотите отфильтровать количество записей, вы можете применить агрегирование, как указано здесь

pipeline = "{'$match': {'type': 'apple'}}"
df = my_spark.read.format("mongo").option("uri",
        "mongodb://localhost:27017/db_name.collection_name").option("pipeline", pipeline).load()

И если вы хотите указать только несколько столбцов, вы можете прочитать всю коллекцию затем выберите требуемый один раз, поскольку Spark будет лениво оценивать эти столбцы и применять прогнозируемые значения pushdown

df = my_spark.read.format("mongo").option("uri",
        "mongodb://localhost:27017/db_name.collection_name").load().select('column1',column2')

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...