Невозможно проанализировать файл из AWS Приклеить динамический_фрейм к фрейму данных Pyspark - PullRequest
0 голосов
/ 24 апреля 2020

Я новичок в AWs glue.

Я сталкиваюсь с проблемой при преобразовании фрейма данных клея в фрейм данных pyspark:

Ниже приведена конфигурация гусеничного хода, которую я создал для чтения файла csv glue_cityMapDB = "csvDb" glue_cityMapTbl = "таблица csv"

datasource2 = glue_context.create_dynamic_frame.from_catalog(database = glue_cityMapDB, table_name = glue_cityMapTbl, transformation_ctx = "datasource2")

datasource2.show()

print("Show the data source2 city DF")
cityDF=datasource2.toDF()
cityDF.show()

Вывод:

Здесь я получаю вывод из клея dydf - # datasource2.show () Но после преобразования в pyspark DF, я получаю следующую ошибку

S3NativeFileSystem (S3NativeFileSystem.java:open(1208)) - Opening 's3://s3source/read/names.csv' for reading 2020-04-24 05:08:39,789 ERROR [Executor task launch worker for task

Оцените, если кто-нибудь может помочь в этом?

1 Ответ

0 голосов
/ 25 апреля 2020

Используйте файл в кодировке UTF-8. Вы можете проверить, используя файл, или конвертировать, используя inconv или любой другой текстовый редактор, например, sublime.

. Вы также можете прочитать файлы как фрейм данных, используя:

df = spark.read.csv('s3://s3source/read/names.csv')

затем преобразовать в динамические c кадры, используя fromDF ()

...