У меня есть фрейм данных PySpark, который выглядит следующим образом:
id header1 header2 header3 ... headerN
a 997 154.5 0.8 ....
b 0.3 3.4 6.7 ....
c 7 8 9 ....
.
.
.
Я хочу преобразовать это в плоскую таблицу, которая выглядит примерно так:
a header1 997
a header2 154.5
a header3 0.8
b header1 0.3
b header2 0.3
и т. Д.
Каждое имя столбца заголовка уникально.Имена первых столбцов являются идентификаторами.Как я могу наиболее эффективно преобразовать это в PySpark?Я могу перебрать DataFrame, но должен быть более эффективный способ.
Вот пример кадра данных:
df = spark.createDataFrame([
('a',997.0,154.5,0.8),
('b',0.3,3.4,6.7),
('c',7.0,8.0,9.0)],
['id','header1','header2','header3'])