Можно загрузить данные напрямую из s3, используя Glue:
sourceDyf = glue_context.create_dynamic_frame_from_options(
connection_type="s3",
format="csv",
connection_options={
"paths" -> ["s3://bucket/folder"]
},
format_options={
"header", "true",
"delimiter", ","
})
Вы также можете сделать это только с помощью spark (как вы уже пробовали):
sourceDf = spark.read
.option("header","true")
.option("delimiter", ",")
.csv("C:\inputs\TEST.txt")
Однако вв этом случае клей не гарантирует, что они предоставляют соответствующие читатели Spark.Поэтому, если ваша ошибка связана с отсутствующим источником данных для CSV, вам следует добавить spark-csv lib к заданию Glue, указав путь s3 к его местоположениям с помощью параметра - extra-jars .