Question

Как мне изменить это, чтобы указать, какие поля я хочу просматривать из коллекции? Я не хочу просматривать всю коллекцию

df = my_spark.read.format("mongo").option("uri",
        "mongodb://localhost:27017/db_name.collection_name").load()

Shubham Jain · Answer 1 · 20 июня 2020

Если вы хотите отфильтровать количество записей, вы можете применить агрегирование, как указано здесь

pipeline = "{'$match': {'type': 'apple'}}"
df = my_spark.read.format("mongo").option("uri",
        "mongodb://localhost:27017/db_name.collection_name").option("pipeline", pipeline).load()

И если вы хотите указать только несколько столбцов, вы можете прочитать всю коллекцию затем выберите требуемый один раз, поскольку Spark будет лениво оценивать эти столбцы и применять прогнозируемые значения pushdown

df = my_spark.read.format("mongo").option("uri",
        "mongodb://localhost:27017/db_name.collection_name").load().select('column1',column2')

Укажите поля в pyspark при чтении из коллекции mongodb

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Укажите поля в pyspark при чтении из коллекции mongodb

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов