У меня есть разные CSV-файлы, которые хранятся в подпапках в данной папке, и некоторые из них имеют один формат, а некоторые имеют другой формат в именах столбцов.
april_df = spark.read.option("header", True).option("inferSchema", True).csv('/mnt/range/2018_04_28_00_11_11/')
Указанная выше команда относится только к одному формату и игнорирует другой формат.Есть ли какой-нибудь быстрый способ в параметре, например, mergeschema для паркета?
формат некоторых файлов похож на:
id ,f_facing ,l_facing ,r_facing ,remark
другой -
id, f_f, l_f ,r_f ,remark
, но может бытьв будущем возможно отсутствие некоторых столбцов и т. д., поэтому необходим надежный способ справиться с этим.