Я использую Spark 2.2.1, у которого есть полезная опция, чтобы указать, сколько записей я хочу сохранить в каждом разделе файла;эта функция позволяет избежать передела перед записью файла.Однако, кажется, что эта опция может использоваться только с интерфейсом FileWriter, а не с DataFrameWriter: таким образом, опция игнорируется
df.write.mode("overwrite")
.option("maxRecordsPerFile", 10000)
.insertInto(hive_table)
, тогда как при этом она работает
df.write.option("maxRecordsPerFile", 10000)
.mode("overwrite").orc(path_hive_table)
поэтому я непосредственно пишу файлы orc в папку HiveMetastore указанной таблицы.Проблема состоит в том, что если я запрашиваю таблицу Hive после вставки, эти данные не распознаются Hive.Знаете ли вы, есть ли возможность напрямую записывать файлы разделов в метасторое куста и делать их доступными также через таблицу Hive?