Я написал фрейм данных pyspark как паркет для s3, используя EMR (pyspark), эти данные разделены на столбец (A), который является StringType ()
, в S3 данные выглядят примерно так
table_path:
A=0003
part-file.parquet
A=C456
part-file.parquet
Пока я читаю это как фрейм данных, используя pyspark, я теряю начальные нули в столбце «A» фрейма данных. Вот как выглядят данные
df = spark.read.parquet(table_path)
df.show()
| A | B |
| 3 | ..|
|C456| ..|
Я не хочу терять здесь ведущие нули. Ожидаемый результат:
| A | B |
|0003| ..|
|C456| ..|