Трансляция Pyspark DataFrame в искровой кластер - PullRequest
0 голосов
/ 15 ноября 2018

Как транслировать фрейм данных pyspark, который содержит 4 столбца и 10 строк?

Пример кадра данных:

enter image description here

Я пробовал несколько вариантов, таких как:

  1. Прямая отправка кадра данных в broadcast()

Должен ли я соблюдать какие-либо ограничения при трансляции кадра данных?

bc = sc.broadcast(df_sub)

Выдает исключение:

py4j.Py4JException: метод GetState ([]) не существует

  1. присоединение к фрейму данных:

brdct = df_cate.join(broadcast(df_sub), ["commonkey"], "left")

Как получить доступ к передаваемым значениям?

Полезно ли преобразовывать фрейм данных как питон dictionary? Влияет ли это на производительность?

...