конвертировать датафрейм в список строк pyspark glue - PullRequest
0 голосов
/ 16 января 2020

Как я могу преобразовать мой фрейм данных df в список строк?

Код

df = glueContext.create_dynamic_frame_from_options(
    connection_type = "s3",
    connection_options = {"paths": ["s3://data/tmp1/file.csv"]},
    format = "csv",
)
df = df.toDF()
list = df.values.tolist()

Ошибка

dataframe has no attribute values

Ответы [ 2 ]

1 голос
/ 16 января 2020

ИМХО, вы можете использовать toPandas(),

df = glueContext.create_dynamic_frame_from_options(
    connection_type="s3", 
    connection_options={"paths": ["s3://data/tmp1/file.csv"]}, 
    format="csv")

df = df.toPandas()
liste = df.values.tolist()
0 голосов
/ 20 января 2020

В клею вы можете использовать метод DyanamicFrame.map () (https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-dynamic-frame.html#aws -glue-api-crawler-pyspark-extensions-dynamici c -frame-map )

df.map(to_list)
def to_list(rec):
       rec["list"] = [rec["col1"], rec["col2"] ]
       del rec["col1"]
       del rec["col2"]
...