Конвертируйте данные XML в pandas dataframe через pyspark.sql.dataframe - PullRequest
0 голосов
/ 15 марта 2019

Мой опыт работы: давний пользователь SAS и R, пытающийся выяснить, как сделать некоторые элементарные вещи в блоках данных Azure, используя Python и Spark.Извините за отсутствие воспроизводимого примера ниже;Я не уверен, как создать такой.

Я пытаюсь прочитать данные из сложного файла XML.Я достиг этой точки, где у меня есть pyspark.sql.dataframe (назовите его xml1) с таким расположением:

RESPONSE:array
  element:array
    element:struct
      VALUE:string
      VARNAME:string

Кадр данных xml1 выглядит следующим образом:

[Row(RESPONSE=[[Row(VALUE='No', VARNAME='PROV_U'), Row(VALUE='Included', VARNAME='ADJSAMP'), Row(VALUE='65', VARNAME='AGE'), ...

Когда я использую xml2 = xml1.toPandas (), я получаю это:

                      RESPONSE
0   [[(No, PROV_U), (Included, ADJSAMP), (65, AGE)...
1   [[(Included, ADJSAMP), (71, AGE), ...
...

Как минимум, я хотел бы преобразовать это в фрейм данных Pandas с двумя столбцами VARNAME и VALUE.Лучшим решением был бы кадр данных со столбцами, названными со значениями VARNAME (такими как PROV_U, ADJSAMP, AGE), с одной строкой на RESPONSE.Полезные советы с именами правильных терминов Python на промежуточных этапах приветствуются!

1 Ответ

0 голосов
/ 28 марта 2019

Чтобы разобраться с множеством структур взорваться, это ваш ответ. Вот ссылка на то, как использовать взорваться https://hadoopist.wordpress.com/2016/05/16/how-to-handle-nested-dataarray-of-structures-or-multiple-explodes-in-sparkscala-and-pyspark/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...