У меня есть Spark SQL, который группирует несколько столбцов.Мне было интересно, имеет ли значение порядок столбцов для производительности запроса.
Помогает ли размещение столбца с более различными значениями ранее?Я предполагаю, что groupby основан на некотором алгоритме хеширования / перемешивания.Если первый groupby может распределять данные по небольшим подмножествам, которые могут храниться на одном компьютере, последующие groupbys могут выполняться локально.Это правда?
Какова лучшая практика групповой игры?