PyHive игнорирует конфигурацию Hive - PullRequest
0 голосов
/ 13 декабря 2018

Я периодически получаю сообщение об ошибке

DAG не удалось из-за VERTEX_FAILURE.

при выполнении запросов Hive через PyHive.По этой причине Hive работает в кластере EMR, где hive.vectorized.execution.enabled имеет значение false в файле hive-site.xml.

Я могу установить указанное выше свойство через конфигурацию соединения Hive, и мой запрос успешно выполняется каждый раз, когда я его выполняю, однако я хочу подтвердить, что это устранило проблему и что это определеннослучай, когда hive-site.xml игнорируется.

Может кто-нибудь подтвердить, является ли это ожидаемым поведением, или, альтернативно, есть ли способ проверить конфигурацию Hive через PyHive, поскольку я не смог найти какой-либоспособ сделать это?

Спасибо!

1 Ответ

0 голосов
/ 13 декабря 2018

PyHive - это тонкий клиент , который подключается к HiveServer2, так же, как клиент Java или C (через JDBC или ODBC).Он не использует файлы конфигурации Hadoop на вашем локальном компьютере.Сеанс HS2 начинается с того, какие свойства установлены на стороне сервера.
То же самое относится к ImPyla BTW.

Так что вы несете ответственность за установку пользовательских свойств сеанса из своего кода Python, например, выполните эту инструкцию ...
SET hive.vectorized.execution.enabled =False
... до запуска SELECT.

...