Итак, у меня есть датафрейм df
, вот так,
+---+-----+
| ID|COL_A|
+---+-----+
| 1| 123|
+---+-----+
У меня тоже есть что-то вроде:
{"COL_B":"abc","COL_C":""}
Теперь мне нужно обновить df ключами в dict, являющимися новым именем столбца, и значением ключа, являющимся стоимостным значением столбца.
Ожидаемый df должен быть таким:
+---+-----+-----+-----+
| ID|COL_A|COL_B|COL_C|
+---+-----+-----+-----+
| 1| 123| abc| |
+---+-----+-----+-----+
Теперь вот мой Python-код, чтобы сделать это, который работает нормально ...
input_data = pd.read_csv(inputFilePath,dtype=str)
for key, value in mapRow.iteritems(): #mapRow is the dict
if value is None:
input_data[key] = ""
else:
input_data[key] = value
Теперь я переношу этот код в pyspark и хотел бы узнать, как это сделать в pyspark ?
Спасибо за помощь.