PySpark получает доступ к значению трансляции в executor - PullRequest
0 голосов
/ 04 января 2019
def transform_data(data_dict, broadcast_map):
    detail = broadcast_map.value.get('key)

broadcast_map = spark_session.sparkContext.broadcast(my_map)
data_frame = spark_session.sql(get_data_sql())
data_frame.rdd.map(lambda hive_data: transform_data(hive_data.asDict(),broadcast_map))

Если я передам ссылку на значение широковещания, как исполнитель определит нужный объект широковещания? Или объект широковещания копируется исполнителям при каждом вызове метода, если код структурирован следующим образом?

Целью использования трансляции является предотвращение ненужного копирования данных исполнителям.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...