Я пытаюсь выполнить работу ETL на AWS, используя Glue и pySpark, но, к сожалению, я действительно новичок в этом.
По большей части у меня нет проблем с работой с клеевой динамикой c dataframe для выполнения applymapping и некоторых других преобразований, которые я должен выполнить. Но я столкнулся с проблемой с конкретным столбцом, который я должен преобразовать из строки в массив целых чисел. В этом столбце, value
, мы установили тип данных как строку, которая влияет на массив целых чисел, преобразованных в строку и разделенных пробелом, например запись данных в столбце value
выглядит как '111 222 333 444 555 666'
. Я должен преобразовать этот столбец в целочисленный массив, чтобы мои данные были преобразованы в '[111, 222, 333, 444, 555, 666]'
.
Как мне добиться этого в AWS Glue и использовании pySpark? Любая помощь очень ценится.