pyspark читает несколько файлов с потенциально поврежденными - PullRequest
0 голосов
/ 13 сентября 2018

Мои данные «разделены» по дням / данным / дням = 20180720 /, / данным / дням = 20180721 / и т. Д. Я добавляю больше столбцов в каждый день по одному.

path = '/mydata/'
df = spark.read.option("mergeSchema", "true").parquet(path).filter(day in 
('20180720', '20180721'))
df = df.withColumn(...)

При таком подходе я получил ошибку, которая, как я полагаю, исходит из поврежденного файла.Есть ли способ пропустить испорченных и продолжить чтение остальных?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...