Я пытаюсь выполнить сокращение раздела, используя условия JOIN ON, а не условия WHERE.Предлагает ли spark эту возможность?
Например, у меня есть кадр данных DF1 с именем и возрастом столбцов.У меня также есть каталог в моей HDFS, называемый хранилищем данных, и внутри этого каталога мои данные разбиты по имени, а затем по возрасту.Давайте назовем этот ссылочный набор данных DF2.Можно ли присоединиться к DF1 с DF2 ON DF1.name = DF2.name AND DF1.age = DF2.age и иметь возможность проходить только связанные каталоги имен и возрастов, чтобы фактически не читать все файлы в каждом каталоге?Глядя на журналы, кажется, что spark проходит через каждый каталог name / age и читает все файлы, даже если он не совпадает с тем, что мы пытаемся объединить, с фрейма данных в памяти DF1.
Я бы подумал, что sparkдолжен быть достаточно умен, чтобы знать только, чтобы смотреть на каталоги name / age, принадлежащие DF1, разве это не так?