Question

У меня есть коллекция документов с N полями, одним из которых является строковое поле, содержащее некоторый текст. Это поле есть не в каждом документе.

Для данной задачи у меня есть 2 основных варианта:

1) создать поле в документах, где оно отсутствует, и заменить его некоторым текстом-заполнителем.

2) удалить документ.

В mongodb я мог бы легко справиться с этой ситуацией с помощью синтаксиса { field: { $exists: <boolean> } }, но я использую pyspark с разъемом mongodb. Читая документацию, я не нашел ничего полезного.

Кто-нибудь может предложить мне возможное решение? Спасибо

Редактировать

Как и предполагалось в ответе, я скучаю по тому, что модуль pyspark.sql (очевидно) основан на реляционной модели, поэтому отсутствующие поля документа обрабатываются как нулевые (см. Изображение и обзор текстовых полей):

ShemTov · Answer 1 · 01 мая 2020

Если я правильно понимаю ваш вопрос:

your_df.withColumn("your_column",when(col("your_column").isNull, lit("smth")).otherwise(col("your_column"))
просто отфильтруйте запись -> your_df.where(col("your_column").isNotNull).

Если это не то, что вы искали, предоставьте дополнительную информацию о вашем вопросе (и примеры).

Есть ли способ проверить, существует ли данное поле в pyspark и mongodb?

Редактировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли способ проверить, существует ли данное поле в pyspark и mongodb?

Редактировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы