Разъем Spark + Hive Warehouse + Hive: работа со столами Hive с оплеткой - PullRequest
0 голосов
/ 30 января 2020

Можно ли написать (добавить) таблицу Hive с пакетом из приложения Spark (Streaming), используя (Hortonworks) Hive Warehouse Connector?

Мой набор данных Spark записывается с помощью dataset.write().format(HiveWarehouseSession.HIVE_WAREHOUSE_CONNECTOR).mode("append").option("table", "simulation.hive_sensor").save();

Когда я пытаюсь выполнить крупное сжатие в beeline через alter table mydb.mytable compaction 'major';, я получаю следующие исключения в моих журналах заданий MR:

Error: java.lang.IllegalStateException: No 'original' files found for bucketId=6 in hdfs://myserver.de:8020/warehouse/tablespace/managed/hive/simulation.db/hive_sensor/delta_0000096_0000096_0000

Как решить эту проблему, если сегменты не поддерживаются HW C, но тысячи файлов создаются в моем пути HDFS таблицы Hive (/ warehouse / tablespace / managed / hive / моделирование. db / hive_sensor) - мне как-то приходится собирать эти небольшие файлы из соображений производительности.

Я использую Платформу данных Hortonworks 3.1.4 с Spark 2.3.2 и Hive 3.1.0

...