Я полагаю, что вы можете добиться этого, преобразовав DF (с двумя нужными столбцами) в rdd:
data_rdd = data.selet(['col1', 'col2']).rdd
создайте ключ, содержащий rdd, соединяемый с обоими столбцами, используя функцию rdd.map:
kp_rdd = data_rdd.map(lambda row : (row[0],row[1]))
, а затем собирать в виде карты:
dict = kp_rdd.collectAsMap()
это основная идея, извините, у меня нет сейчас запущенного экземпляра pyspark для его проверки.