Dataframe.head () занимает вечно - PullRequest
0 голосов
/ 12 декабря 2018

Я импортировал JSON-файл из хранилища BLOB-объектов, размер которого составляет около 50 ГБ.

dsm_temperature_df = spark.read.json(file_location, multiLine=True)

После импорта в фрейм данных искры Databricks, который занял около 40 минут, я хочу показать первую строку с df.head().К сожалению, это занимает вечность.Я позволил этому бежать в течение 60 минут, но затем я остановил это.Я что-то здесь не так делаю?

PS: я обнаружил, что для файла json меньшего размера, который содержит около 1 ГБ, выполнение методов df.head() или df.first() занимает более 2 минут.Для 50-гигабайтного json это означало бы более 100 минут, чтобы получить первый ряд.Это не может быть на самом деле, не так ли?

1 Ответ

0 голосов
/ 17 декабря 2018

Проблема была в коде раньше.Произошло неправильное преобразование данных, и поэтому кадр данных был поврежден.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...