Question

Мои данные «разделены» по дням / данным / дням = 20180720 /, / данным / дням = 20180721 / и т. Д. Я добавляю больше столбцов в каждый день по одному.

path = '/mydata/'
df = spark.read.option("mergeSchema", "true").parquet(path).filter(day in 
('20180720', '20180721'))
df = df.withColumn(...)

При таком подходе я получил ошибку, которая, как я полагаю, исходит из поврежденного файла.Есть ли способ пропустить испорченных и продолжить чтение остальных?

pyspark читает несколько файлов с потенциально поврежденными

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

pyspark читает несколько файлов с потенциально поврежденными

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов