Ошибка подключения драйвера Spark ODBC - PullRequest
0 голосов
/ 14 мая 2019

Я настроил драйвер spark odbc на виртуальной машине Azure. Создан системный DSN для подключения Azure Databricks. Соединение прошло успешно, и я могу подключиться к базам данных.

После выполнения запроса для данных более 4 ГБ я получаю ошибку ниже:

Поймал эту ошибку: Ошибка выполнения на sql 'SELECT * FROM ZST.DIM_CLM ГДЕ CONCAT (SNAPSHOT_YEAR_MONTH, SNAPSHOT_DAY) = '20190131' ЗАКАЗАТЬ CLM_PK limit 20000 ': (' HY000 ', "[HY000] [Microsoft] [Hardy] (35) Ошибка с сервера: код ошибки: «0» сообщение об ошибке: 'org.apache.spark.SparkException: задание прервано из-за сбоя этапа: Общий размер сериализованных результатов 122 задач (4,0 ГБ) больше, чем spark.driver.maxResultSize (4,0 ГБ) '. (35) (SQLExecDirectW) ")

Я написал код на python и использую pandas odbc для подключения к базе данных.

Есть ли другой способ подключения и загрузки дополнительных данных через соединение odbc?

OR

Как я могу увеличить лимит?

...