Разбить выбранный столбец (с xmldata) в кадре данных - df в поля в новой искре df - PullRequest
0 голосов
/ 15 января 2020

У меня есть 4 поля в df после анализа файла с разделителем канала. 4-е поле col4 содержит вложенные данные xmls в виде строки. Мне нужно извлечь выбранные поля из поля xml и добавить их в качестве дополнительных полей в новый df / ds. Спасибо

col1, col2, col3, col4 - содержит xml данные

Dataset<Row> unFilteredData = ds.selectExpr("value as message").selectExpr(
            "trim(split(message,\"[|]\")[0]) as col1", // 1
            "trim(split(message,\"[|]\")[1]) as col2", // 2
            "trim(split(message,\"[|]\")[2]) as col3",// 3
            "trim(split(message,\"[|]\")[3]) as col4"// 4 -- contains xmldata as string
            );
...