Question

Я установил очень высокое значение spark.sql.autoBroadcastJoinThreshold, равное 20 ГБ.Я присоединяюсь к таблице, которая, я уверен, находится ниже этой переменной, однако спарк делает SortMergeJoin.Если я установил подсказку о трансляции, то spark выполнит соединение и трансляция завершится намного быстрее.Однако, когда я запускаю в производство несколько больших таблиц, я сталкиваюсь с ошибками.Есть ли способ узнать реальный размер передаваемой таблицы?Я написал таблицу, передаваемую на диск, и на паркет у меня ушло всего 32 МБ.Я попытался кэшировать эту таблицу в Zeppelin и запустить операцию table.count (), но на вкладке «Хранилище» Spark History Server ничего не отображается.spark.util.SizeEstimator, похоже, также не дает точных чисел для этой таблицы.Любой способ выяснить размер передаваемой таблицы?

Любой способ увидеть размер переменной вещания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Любой способ увидеть размер переменной вещания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов