Как правильно загрузить вывод текста (CTRL + отдельные и пустые значения) в pyspark? - PullRequest
0 голосов
/ 13 сентября 2018

Дело в том, что у меня есть два одинаковых выхода, один текстовый (CTR + A разделенный), а второй паркетный.

С загрузкой паркетного выхода в pyspark проблем нет.Есть значения или они пустые (реальный пробел не нулевой).

parquet

но при выводе текста это выглядит так:

text

вместо пустых значений есть "ноль" (я почти уверен).

Я загружаю вывод текста следующим образом:

df_t = spark.read \
   .schema(customSchema) \
   .option('quote', '\u0000') \
   .option('delimiter', '\u0001') \
   .option('header', 'false') \
   .option('nullValue', '{{null}}') \
   .csv(path_t)

Я думал, что с этой опцией будет какой-то эффект:

.option('nullValue', '{{null}}') \

, но его нет.

Есть ли какая-нибудь опция, которая могла бы справиться с этим?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...