Заголовочные файлы для каталога данных клея AWS - PullRequest
0 голосов
/ 15 января 2019

У меня есть некоторые данные в s3, которые я хочу использовать AWS Glue для сканирования и сохранения в каталоге данных. Проблема у меня заключается в том, что сами данные не имеют строк заголовков. Вместо этого есть отдельный заголовочный файл ("header.csv"). Есть ли способ, которым я могу сказать AWS Glue использовать файл header.csv для получения имен столбцов? В противном случае в каталоге данных будут отображаться имена столбцов как «col0», «col1», ... «coln».

т.е. У меня есть следующие данные:

s3: //bucket/data/animals/header.csv

"id","animaltype","age"

s3: //bucket/data/animals/data.csv

"1","cat","5"
"2","dog","2"
"3","otter","7"

1 Ответ

0 голосов
/ 16 января 2019

Боюсь, что у сканера нет возможности получить информацию заголовка из другого файла.

Однако вы можете написать склеивающее задание для переименования столбцов.

df = dyf.toDF ()
oldColumns = df.schema.names
newColumns = #cols из заголовочного файла
df = уменьшить (лямбда-дф, idx: df.withColumnRenamed (oldColumns [idx], newColumns [idx]), xrange (len (oldColumns)), df)

...