Question

Итак, я читаю кучу файлов HDFS и загружаю их все в массив данных. Когда я распечатываю мой Dataframe, он не возвращает столбцы с нулевым значением. Поэтому некоторые из моих строк имеют 120 столбцов, другие - 113 (в зависимости от того, какие столбцы для этой записи являются нулевыми)

Это вызывает проблему где-то еще в моем коде, и я просто думаю, что самое простое решение было бы для Фрейм данных, создаваемый после прочтения файлов паркета, позволяет отображать значения NULL и видимые столбцы.

**** РЕДАКТИРОВАТЬ ****

Это становится недействительным. Позвольте мне предоставить код ...

hdfsDF = sparkSession.read()
                .format(format)
                .option("header", false)
                .option("delimiter", "\u0001")
                .load(filePaths.split(","))
                .toDF(Constants.HDFS_FIELD_LIST)
                .select("acct_ref_nb",
                        "txn_pst_dt",
                        "txn_am",
...................

Затем мы просто выбираем нужные поля. У меня есть полный список полей в этом Constants.HDFS_FIELD_LIST, который является строкой []

Dataframe, не включая нулевые кумны

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Dataframe, не включая нулевые кумны

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы