Мой опыт работы: давний пользователь SAS и R, пытающийся выяснить, как сделать некоторые элементарные вещи в блоках данных Azure, используя Python и Spark.Извините за отсутствие воспроизводимого примера ниже;Я не уверен, как создать такой.
Я пытаюсь прочитать данные из сложного файла XML.Я достиг этой точки, где у меня есть pyspark.sql.dataframe (назовите его xml1) с таким расположением:
RESPONSE:array
element:array
element:struct
VALUE:string
VARNAME:string
Кадр данных xml1 выглядит следующим образом:
[Row(RESPONSE=[[Row(VALUE='No', VARNAME='PROV_U'), Row(VALUE='Included', VARNAME='ADJSAMP'), Row(VALUE='65', VARNAME='AGE'), ...
Когда я использую xml2 = xml1.toPandas (), я получаю это:
RESPONSE
0 [[(No, PROV_U), (Included, ADJSAMP), (65, AGE)...
1 [[(Included, ADJSAMP), (71, AGE), ...
...
Как минимум, я хотел бы преобразовать это в фрейм данных Pandas с двумя столбцами VARNAME и VALUE.Лучшим решением был бы кадр данных со столбцами, названными со значениями VARNAME (такими как PROV_U, ADJSAMP, AGE), с одной строкой на RESPONSE.Полезные советы с именами правильных терминов Python на промежуточных этапах приветствуются!