Question

Я импортировал JSON-файл из хранилища BLOB-объектов, размер которого составляет около 50 ГБ.

dsm_temperature_df = spark.read.json(file_location, multiLine=True)

После импорта в фрейм данных искры Databricks, который занял около 40 минут, я хочу показать первую строку с df.head().К сожалению, это занимает вечность.Я позволил этому бежать в течение 60 минут, но затем я остановил это.Я что-то здесь не так делаю?

PS: я обнаружил, что для файла json меньшего размера, который содержит около 1 ГБ, выполнение методов df.head() или df.first() занимает более 2 минут.Для 50-гигабайтного json это означало бы более 100 минут, чтобы получить первый ряд.Это не может быть на самом деле, не так ли?

Thomas Hahn · Answer 1 · 17 декабря 2018

Проблема была в коде раньше.Произошло неправильное преобразование данных, и поэтому кадр данных был поврежден.

Dataframe.head () занимает вечно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Dataframe.head () занимает вечно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы