У меня есть коллекция документов с N полями, одним из которых является строковое поле, содержащее некоторый текст. Это поле есть не в каждом документе.
Для данной задачи у меня есть 2 основных варианта:
1) создать поле в документах, где оно отсутствует, и заменить его некоторым текстом-заполнителем.
2) удалить документ.
В mongodb я мог бы легко справиться с этой ситуацией с помощью синтаксиса { field: { $exists: <boolean> } }
, но я использую pyspark с разъемом mongodb. Читая документацию, я не нашел ничего полезного.
Кто-нибудь может предложить мне возможное решение? Спасибо
Редактировать
Как и предполагалось в ответе, я скучаю по тому, что модуль pyspark.sql
(очевидно) основан на реляционной модели, поэтому отсутствующие поля документа обрабатываются как нулевые (см. Изображение и обзор текстовых полей):