Я настроил драйвер spark odbc на виртуальной машине Azure. Создан системный DSN для подключения Azure Databricks. Соединение прошло успешно, и я могу подключиться к базам данных.
После выполнения запроса для данных более 4 ГБ я получаю ошибку ниже:
Поймал эту ошибку: Ошибка выполнения на sql 'SELECT * FROM
ZST.DIM_CLM ГДЕ
CONCAT (SNAPSHOT_YEAR_MONTH, SNAPSHOT_DAY) = '20190131' ЗАКАЗАТЬ
CLM_PK limit 20000 ': (' HY000 ', "[HY000] [Microsoft] [Hardy]
(35) Ошибка с сервера: код ошибки: «0» сообщение об ошибке:
'org.apache.spark.SparkException: задание прервано из-за сбоя этапа:
Общий размер сериализованных результатов 122 задач (4,0 ГБ) больше, чем
spark.driver.maxResultSize (4,0 ГБ) '. (35) (SQLExecDirectW) ")
Я написал код на python и использую pandas odbc для подключения к базе данных.
Есть ли другой способ подключения и загрузки дополнительных данных через соединение odbc?
OR
Как я могу увеличить лимит?