Какой формат файла мне следует использовать для сохранения Spark Dataframe, который содержит двоичные данные до их передачи в DynamoDB с использованием python2 (boto3)? - PullRequest
0 голосов
/ 10 апреля 2020

У меня есть фрейм данных, который содержит столбец двоичных данных и будет сохранен в S3. Результат будет использован другой задачей, которая использует python2 (boto3) для передачи в DynamoDB.

Фрейм данных имеет следующую схему: data содержит ~ 3,8k байты, остальные 2 поля короткие:

root
 |-- ID: string (nullable = true)
 |-- key: string (nullable = false)
 |-- data: binary (nullable = true)

1-я Идея состояла в том, чтобы сохранить его в файл Json, но файл Json содержит только строку
Q1: Если я пишу фрейм данных в виде Json файлов, как я могу использовать python2 (boto3) для декодирования поля обратно в исходный байтовый массив?

Q2: Какой формат лучше выбрать в этом так, чтобы задача python2 (boto3) могла легко обрабатываться или не нужно обрабатывать декодирование?

...