Сервер Spark Thrift пытается загрузить полный набор данных в память перед передачей через JDBC, на клиенте JDBC я получаю сообщение об ошибке:
SQL Error: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 48 tasks (XX GB) is bigger than spark.driver.maxResultSize (XX GB)
org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 48 tasks (XX GB) is bigger than spark.driver.maxResultSize (XX GB)
org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 48 tasks (XX GB) is bigger than spark.driver.maxResultSize (XX GB)
Запрос: выберите * из таблицы. Возможно ли включить что-то вроде потокового режима для Thrift Server? Основная цель - предоставить доступ из Pentaho ETL к кластеру Hadoop с использованием SparkSQL через соединение JDBC. Но если Thrift Server должен загрузить полный набор данных в память перед передачей, этот подход не будет работать.