Мои данные «разделены» по дням / данным / дням = 20180720 /, / данным / дням = 20180721 / и т. Д. Я добавляю больше столбцов в каждый день по одному.
path = '/mydata/'
df = spark.read.option("mergeSchema", "true").parquet(path).filter(day in
('20180720', '20180721'))
df = df.withColumn(...)
При таком подходе я получил ошибку, которая, как я полагаю, исходит из поврежденного файла.Есть ли способ пропустить испорченных и продолжить чтение остальных?