Перемещение файла json из блоков данных в хранилище BLOB-объектов - PullRequest
0 голосов
/ 24 марта 2020

Я создал монтирование в блоках данных, которое подключается к моему хранилищу больших двоичных объектов, и я могу читать файлы из большого двоичного объекта в кирпичи данных с помощью ноутбука.

Затем я преобразовал .txt в формат json с помощью pyspark. и теперь я хотел бы загрузить его обратно в хранилище BLOB-объектов. Кто-нибудь знает, как мне это сделать?

Вот несколько вещей, которые я попробовал:

my_json.write.option("header", "true").json("mnt/my_mount/file_name.json")

write.json(my_json, mnt/my_mount)

Ни одна из этих работ , Я могу поместить загрузку файла CSV из блоков данных в blob, используя:

my_data_frame.write.option("header", "true").csv("mnt/my_mount_name/file name.csv")

Это работает нормально, но я не могу найти решение для перемещения json.

Есть идеи?

1 Ответ

0 голосов
/ 24 марта 2020

Отказ от ответственности: я новичок в pySpark, но это то, что я сделал.

Это то, что я сделал после обращения к документу pyspark. sql .DataFrameWriter. json


# JSON
my_dataframe.write.json("/mnt/my_mount/my_json_file_name.json")

# For a single JSON file
my_dataframe.repartition(1).write.json("/mnt/my_mount/my_json_file_name.json")

# Parquet
my_dataframe.write.mode("Overwrite").partitionBy("myCol").parquet("/mnt/my_mount/my_parquet_file_name.parquet")


...