Можно ли написать (добавить) таблицу Hive с пакетом из приложения Spark (Streaming), используя (Hortonworks) Hive Warehouse Connector?
Мой набор данных Spark записывается с помощью dataset.write().format(HiveWarehouseSession.HIVE_WAREHOUSE_CONNECTOR).mode("append").option("table", "simulation.hive_sensor").save();
Когда я пытаюсь выполнить крупное сжатие в beeline через alter table mydb.mytable compaction 'major';
, я получаю следующие исключения в моих журналах заданий MR:
Error: java.lang.IllegalStateException: No 'original' files found for bucketId=6 in hdfs://myserver.de:8020/warehouse/tablespace/managed/hive/simulation.db/hive_sensor/delta_0000096_0000096_0000
Как решить эту проблему, если сегменты не поддерживаются HW C, но тысячи файлов создаются в моем пути HDFS таблицы Hive (/ warehouse / tablespace / managed / hive / моделирование. db / hive_sensor) - мне как-то приходится собирать эти небольшие файлы из соображений производительности.
Я использую Платформу данных Hortonworks 3.1.4 с Spark 2.3.2 и Hive 3.1.0