Как прочитать несколько CSV-файлов с другой схемой в Pyspark? - PullRequest
0 голосов
/ 09 июля 2019

У меня есть разные CSV-файлы, которые хранятся в подпапках в данной папке, и некоторые из них имеют один формат, а некоторые имеют другой формат в именах столбцов.

april_df = spark.read.option("header", True).option("inferSchema", True).csv('/mnt/range/2018_04_28_00_11_11/')

Указанная выше команда относится только к одному формату и игнорирует другой формат.Есть ли какой-нибудь быстрый способ в параметре, например, mergeschema для паркета?

формат некоторых файлов похож на:

id ,f_facing ,l_facing ,r_facing ,remark

другой -

id, f_f, l_f ,r_f ,remark

, но может бытьв будущем возможно отсутствие некоторых столбцов и т. д., поэтому необходим надежный способ справиться с этим.

1 Ответ

0 голосов
/ 09 июля 2019

Это не так.Либо столбец должен быть заполнен нулем в конвейере, либо вам придется указать схему перед импортом файла.Но если у вас есть понимание того, какие столбцы могут отсутствовать в будущем, вы можете создать сценарий, в котором на основе длины df.columns вы указываете схему, хотя это кажется утомительным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...