Aws клей расширяет возможности Apache Spark. Следовательно, вы всегда можете использовать свой код как есть.
Единственное, что вам нужно сделать, - это изменить создание переменной сеанса и обеспечить анализ аргументов. Вы можете запустить простой старый код pyspark, даже не создавая динамические c фреймы.
def createSession():
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
return sc, glueContext, spark, job
#To handle the arguments
args = getResolvedOptions(sys.argv, ['JOB_NAME', 'arg1', 'arg2'])
arg1 = args['arg1'].split(',')
arg2 = args['arg2'].strip()
#To initialize the job
job.init(args['JOB_NAME'], args)
#your code here
job.commit()
И он также поддерживает spark sql поверх каталога клея.
Надеюсь, это поможет