Question

У меня есть фрейм данных, который содержит столбец двоичных данных и будет сохранен в S3. Результат будет использован другой задачей, которая использует python2 (boto3) для передачи в DynamoDB.

Фрейм данных имеет следующую схему: data содержит ~ 3,8k байты, остальные 2 поля короткие:

root
 |-- ID: string (nullable = true)
 |-- key: string (nullable = false)
 |-- data: binary (nullable = true)

1-я Идея состояла в том, чтобы сохранить его в файл Json, но файл Json содержит только строку
Q1: Если я пишу фрейм данных в виде Json файлов, как я могу использовать python2 (boto3) для декодирования поля обратно в исходный байтовый массив?

Q2: Какой формат лучше выбрать в этом так, чтобы задача python2 (boto3) могла легко обрабатываться или не нужно обрабатывать декодирование?

Какой формат файла мне следует использовать для сохранения Spark Dataframe, который содержит двоичные данные до их передачи в DynamoDB с использованием python2 (boto3)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Какой формат файла мне следует использовать для сохранения Spark Dataframe, который содержит двоичные данные до их передачи в DynamoDB с использованием python2 (boto3)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы