У меня есть 4 поля в df после анализа файла с разделителем канала. 4-е поле col4 содержит вложенные данные xmls в виде строки. Мне нужно извлечь выбранные поля из поля xml и добавить их в качестве дополнительных полей в новый df / ds. Спасибо
col1, col2, col3, col4 - содержит xml данные
Dataset<Row> unFilteredData = ds.selectExpr("value as message").selectExpr(
"trim(split(message,\"[|]\")[0]) as col1", // 1
"trim(split(message,\"[|]\")[1]) as col2", // 2
"trim(split(message,\"[|]\")[2]) as col3",// 3
"trim(split(message,\"[|]\")[3]) as col4"// 4 -- contains xmldata as string
);