Итак, я читаю кучу файлов HDFS и загружаю их все в массив данных. Когда я распечатываю мой Dataframe, он не возвращает столбцы с нулевым значением. Поэтому некоторые из моих строк имеют 120 столбцов, другие - 113 (в зависимости от того, какие столбцы для этой записи являются нулевыми)
Это вызывает проблему где-то еще в моем коде, и я просто думаю, что самое простое решение было бы для Фрейм данных, создаваемый после прочтения файлов паркета, позволяет отображать значения NULL и видимые столбцы.
**** РЕДАКТИРОВАТЬ ****
Это становится недействительным. Позвольте мне предоставить код ...
hdfsDF = sparkSession.read()
.format(format)
.option("header", false)
.option("delimiter", "\u0001")
.load(filePaths.split(","))
.toDF(Constants.HDFS_FIELD_LIST)
.select("acct_ref_nb",
"txn_pst_dt",
"txn_am",
...................
Затем мы просто выбираем нужные поля. У меня есть полный список полей в этом Constants.HDFS_FIELD_LIST, который является строкой []