Я написал DataFrame с pySpark в HDFS с помощью этой команды:
df.repartition(col("year"))\
.write.option("maxRecordsPerFile", 1000000)\
.parquet('/path/tablename', mode='overwrite', partitionBy=["year"], compression='snappy')
При взгляде на HDFS я вижу, что файлы правильно лежат там. В любом случае, когда я пытаюсь прочитать таблицу с помощью HIVE или Impala, таблица не может быть найдена.
Что здесь происходит, я что-то упустил?
Интересно, что df.write.format('parquet').saveAsTable("tablename")
работает правильно.