Question

У меня есть сценарий, в котором я объединяю один фрейм данных меньшего размера (около 5 МБ, если он сохраняется) с несколькими большими фреймами данных. Для принудительного подключения к широковещанию я установил spark. sql .autoBroadCastJoinThresHold примерно на 100 мегабайт.

Насколько мне известно, установка свойства autoBroadCastJoinThresHold - это единственный способ использовать объединение широкого приведения в искре 1.6.

Размер сохраняемой таблицы:

Порог BroadCast:

Но даже если это свойство порога широковещания установлено выше размера информационного кадра, меньший кадр данных объединяется с другие фреймы данных, использующие сортировку слиянием, вместо этого.

Почему это происходит. Может быть, я что-то здесь упускаю. Ниже приведен снимок экрана для справки (справа приведена таблица)

autoBroadCastJoin threshhold не работает над постоянным результатом | Spark 1.6

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

autoBroadCastJoin threshhold не работает над постоянным результатом | Spark 1.6

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы