У меня есть сценарий, в котором я объединяю один фрейм данных меньшего размера (около 5 МБ, если он сохраняется) с несколькими большими фреймами данных. Для принудительного подключения к широковещанию я установил spark. sql .autoBroadCastJoinThresHold примерно на 100 мегабайт.
Насколько мне известно, установка свойства autoBroadCastJoinThresHold - это единственный способ использовать объединение широкого приведения в искре 1.6.
Размер сохраняемой таблицы:
Порог BroadCast:
Но даже если это свойство порога широковещания установлено выше размера информационного кадра, меньший кадр данных объединяется с другие фреймы данных, использующие сортировку слиянием, вместо этого.
Почему это происходит. Может быть, я что-то здесь упускаю. Ниже приведен снимок экрана для справки (справа приведена таблица)