Spark partitionBy для json массива с разными полями - PullRequest
0 голосов
/ 19 февраля 2020

У меня есть json файл с несколькими элементами. Всего 36 000 элементов.

Каждый элемент имеет различное количество различных пар ключ-значение. В то же время каждый элемент имеет ключ «источник» и «тип». Я использую pyspark , чтобы прочитать и обработать его. Я прочитал это json как:

df = spark.read.option("multiLine", True).json(file_path)

Данные прочитаны, и ошибки нет. Затем я хочу сохранить данные в паркет с использованием partitionBy:

df.orderBy("source", "type").write.partitionBy("source", "type").parquet(path_to_folder)

. Оно завершается без ошибок, но все, что я получаю, это только один исходный файл и только один тип файл внутри него.

Больше ничего. Нет файлов, нет ошибок.

Можете ли вы объяснить мне, в чем проблема и почему spark не может сохранить разделы большого файла? Я не думаю, что это действительно большой файл для искры.

Заранее спасибо.

...