У меня есть паркетные файлы, которые мне нужно прочитать со спарк. В некоторых файлах отсутствует несколько столбцов, которые присутствуют в новых файлах.
Поскольку я не знаю, в каких файлах отсутствует столбец, мне нужно прочитать все файлы в спарке. У меня есть список столбцов, которые мне нужно прочитать. Также может быть так, что во всех файлах может отсутствовать столбец. Мне нужно поставить ноль в тех столбцах, которые отсутствуют.
Когда я пытаюсь сделать
sqlContext.sql('query')
выдает ошибку, говоря, что столбцы отсутствуют
Если я определю схему и сделаю
sqlContext.read.parquet('s3://....').schema(parquet_schema)
Это дает мне ту же ошибку.
Помогите мне здесь