Question

Когда я соединяю два кадра данных как:

 val secondDf= sparkSession.read.parquet(inputPath)
 joinedDf = firstDf.join(secondDf, Seq("ID"), "left_outer")

Похоже, что Spark выполняет широковещательное соединение, и перетасовки не происходит.

Но как только я кеширую меньший Df:

 val secondDf= sparkSession.read.parquet(inputPath).cache()
 joinedDf = firstDf.join(secondDf, Seq("ID"), "left_outer")

Spark перетасовывает соединение, поэтому, кажется, никакого трансляционного объединения не происходит.

Мой вопрос: почему это происходит? И как я могу избежать перетасовки, когда я кеширую один фрейм данных?

Большое спасибо

user2682459 · Answer 1 · 09 мая 2018

Попробуйте

firstDf.join(broadcast(secondDf), Seq....)

Не уверен, почему кэширование должно иметь значение, Spark иногда немного непредсказуем.

Вы можете попробовать записать secondDf на диск и прочитать его обратно вместо кэширования, если оно мало, накладные расходы на это будут минимальными.

Apache Spark: широковещательное соединение не работает для кэшированных данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Apache Spark: широковещательное соединение не работает для кэшированных данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы