Я написал фрейм данных Spark для секционированных ORC
файлов, таких как:
df.repartition("LOADED")\
.write\
.partitionBy("LOADED")\
.format("orc")\
.save("location")
Все на диске правильно. После этого я хотел создать из нее таблицу Hive, например:
CREATE TABLE table USING ORC LOCATION 'location'
Команда выполняется без ошибок. Но если я попытаюсь сделать запрос к таблице, она будет пустой.
Я попытался сделать то же самое без разбиения на разделы, и он работает просто отлично. Что я делаю неправильно? Разделенные папки выглядят следующим образом: LOADED=2019-11-16
Для справки: я хочу записать данные в Azure Blob Storage и создать из него таблицу Hive в другом кластере.