Я импортировал JSON-файл из хранилища BLOB-объектов, размер которого составляет около 50 ГБ.
dsm_temperature_df = spark.read.json(file_location, multiLine=True)
После импорта в фрейм данных искры Databricks, который занял около 40 минут, я хочу показать первую строку с df.head()
.К сожалению, это занимает вечность.Я позволил этому бежать в течение 60 минут, но затем я остановил это.Я что-то здесь не так делаю?
PS: я обнаружил, что для файла json меньшего размера, который содержит около 1 ГБ, выполнение методов df.head()
или df.first()
занимает более 2 минут.Для 50-гигабайтного json это означало бы более 100 минут, чтобы получить первый ряд.Это не может быть на самом деле, не так ли?