Я хочу выполнить соединение большого фрейма данных Spark со сравнительно небольшим фреймом данных - PullRequest
0 голосов
/ 22 ноября 2018

Я присоединяюсь к фрейму данных Spark с 23 миллионами записей с фреймом данных с 0,5 миллионами записей.Соединение Broadcast не представляется возможным, так как меньшая таблица не помещается в память, которая будет распределена по всем работникам.Всякий раз, когда я выполняю соединение, Spark останавливается на задании shuffle и не продолжается.Как мне продолжить объединение?

...