Невозможно создать экстракт - Таблицы и Spark SQL - PullRequest
2 голосов
/ 30 мая 2019

Я пытаюсь сделать извлечение информации из Spark SQL.При создании извлечения отображается следующее сообщение об ошибке.

[Симба] [Выносливое] (35) Ошибка сервера: код ошибки: «0» сообщение об ошибке: «org.apache.spark.SparkException: задание прерваноиз-за сбоя этапа: общий размер сериализованных результатов 906 задач (4,0 ГБ) больше, чем spark.driver.maxResultSize (4,0 ГБ) '.

Ответы [ 2 ]

0 голосов
/ 04 июня 2019

Не совсем убежден в Spark SQL Thrift Server, и немного неловко излагать все факты. Tableau использует полученные результаты для драйвера, как еще он может получить их с помощью Spark?

Тем не менее:

  • Установка spark.driver.maxResultSize 0 в соответствующем файле spark-thrift-sparkconf.conf будет означать отсутствие ограничений (кроме физических ограничений на узле драйвера).
  • Установите значение spark.driver.maxResultSize 8G или выше в соответствующем файле spark-thrift-sparkconf.conf. Обратите внимание, что не вся память на драйвере может быть использована.
  • Или используйте Impala Connection for Tableau, предполагая источник Hive Impala, тогда меньше таких проблем.

Кроме того, количество одновременных пользователей может быть проблемой. Отсюда последний пункт.

Интересно, если не сказать больше.

0 голосов
/ 31 мая 2019

Быстрое исправление - это просто изменение настроек в контексте выполнения.

spark.sql("set spark.driver.maxResultSize = 8G")

...