autoBroadCastJoin threshhold не работает над постоянным результатом | Spark 1.6 - PullRequest
0 голосов
/ 18 февраля 2020

У меня есть сценарий, в котором я объединяю один фрейм данных меньшего размера (около 5 МБ, если он сохраняется) с несколькими большими фреймами данных. Для принудительного подключения к широковещанию я установил spark. sql .autoBroadCastJoinThresHold примерно на 100 мегабайт.

Насколько мне известно, установка свойства autoBroadCastJoinThresHold - это единственный способ использовать объединение широкого приведения в искре 1.6.

Размер сохраняемой таблицы:

enter image description here

Порог BroadCast:

enter image description here

Но даже если это свойство порога широковещания установлено выше размера информационного кадра, меньший кадр данных объединяется с другие фреймы данных, использующие сортировку слиянием, вместо этого.

Почему это происходит. Может быть, я что-то здесь упускаю. Ниже приведен снимок экрана для справки (справа приведена таблица)

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...