Мне нужно добавить новый столбец в фрейм данных DF1
, но значение нового столбца должно быть рассчитано с использованием значения других столбцов, присутствующего в этом DF
. Какой из других используемых столбцов будет указан в другом кадре данных DF2
.
например. DF1
|protocolNo|serialNum|testMethod |testProperty|
+----------+---------+------------+------------+
|Product1 | AB |testMethod1 | TP1 |
|Product2 | CD |testMethod2 | TP2 |
DF2-
|action| type| value | exploded |
+------------+---------------------------+-----------------+
|append|hash | [protocolNo] | protocolNo |
|append|text | _ | _ |
|append|hash | [serialNum,testProperty] | serialNum |
|append|hash | [serialNum,testProperty] | testProperty |
Теперь значение в разобранном виде столбца в DF2
будет именами столбцов DF1
, если значение тип столбец га sh.
Required
- Новый столбец должен быть создан в DF1. значение должно быть вычислено, как показано ниже -
hash[protocolNo]_hash[serialNumTestProperty]
~~~ здесь на месте столбца должны появиться соответствующие им значения строк.
например. для Row1 из DF1 значение col должно быть
hash[Product1]_hash[ABTP1]
, что приведет к чему-то вроде abc-df_egh-45e
после хеширования.
Приведенная выше процедура должна выполняться для каждая строка DF1.
Я пытался использовать map и функцию withColumn, используя UDF на DF1. Но в UDF внешнее значение dataframe недоступно (дает исключение нулевого указателя), также я не могу дать DataFrame в качестве ввода в UDF.
Входные DF будут DF1 и DF2, как упомянуто выше.
Желаемый выход DF-
|protocolNo|serialNum|testMethod |testProperty| newColumn |
+----------+---------+------------+------------+----------------+
|Product1 | AB |testMethod1 | TP1 | abc-df_egh-4je |
|Product2 | CD |testMethod2 | TP2 | dfg-df_ijk-r56 |
newColumn значение после хэширования