Как получить доступ к таблице HIVE ACID в Spark sql? - PullRequest
0 голосов
/ 08 ноября 2018

мой вопрос о том, как получить доступ к таблице ACE HIVE в Spark sql?

Ответы [ 3 ]

0 голосов
/ 21 мая 2019

Я столкнулся с той же проблемой (таблицы кислот Spark для Hive), и я могу справиться с вызовом JDBC из Spark. Может быть, я могу использовать этот вызов JDBC от spark до тех пор, пока мы не получим поддержку ACID от Spark.

https://github.com/Gowthamsb12/Spark/blob/master/Spark_ACID

0 голосов
/ 28 июля 2019

Мы разработали и открыли источник данных, который позволит пользователям работать со своими транзакционными таблицами Hive ACID с помощью Spark.

Github: https://github.com/qubole/spark-acid

Он доступен в виде пакета Spark, и инструкции по его использованию находятся на странице Github. В настоящее время источник данных поддерживает только чтение из таблиц Hive ACID, и мы работаем над добавлением возможности записи в эти таблицы также через Spark.

Отзывы и предложения приветствуются!

0 голосов
/ 08 ноября 2018

@ aniket Spark не поддерживает непосредственное чтение таблиц Hive Acid. (https://issues.apache.org/jira/browse/SPARK-15348/SPARK-16996) Расположение данных для транзакционных таблиц требует специальной логики, чтобы решить, какие каталоги читать и как правильно их комбинировать. Например, некоторые файлы данных могут представлять обновления ранее записанных строк. Кроме того, если вы читаете, когда что-то записывает в эту таблицу, ваше чтение может завершиться неудачно (без специальной логики), потому что оно попытается прочитать неполные файлы ORC. Сжатие может (опять же без специальной логики) сделать так, чтобы ваши данные дублировались. Это может быть сделано (WIP) через LLAP - отслеживается в https://issues.apache.org/jira/browse/HIVE-12991

...