Улучшение вывода PySpark DataFrame.show для ноутбука Jupyter - PullRequest
0 голосов
/ 25 мая 2018

Используя PySpark в ноутбуке Jupyter, вывод Spark DataFrame.show не требует больших технологий по сравнению с отображением Pandas DataFrames.Я подумал «Ну, это делает свою работу», пока я не получил это:

enter image description here

Выход не настроен на ширину ноутбука, поэтомучто линии обертывают уродливым способом.Есть ли способ настроить это?Еще лучше, есть ли способ получить вывод в стиле Панды (без конвертации в pandas.DataFrame, очевидно)?

Ответы [ 3 ]

0 голосов
/ 01 декабря 2018

Теперь это возможно изначально для Spark 2.4.0, установив spark.sql.repl.eagerEval.enabled в True:

enter image description here

0 голосов
/ 03 апреля 2019

После игры с моей таблицей, в которой много столбцов, я решил, что для того, чтобы почувствовать данные, лучше всего использовать:

df.show(n=5, truncate=False, vertical=True)

Это отображает их вертикально без усечения исамый чистый просмотр, который я могу придумать.

0 голосов
/ 25 мая 2018

Возьмите подстроку длинных значений в вашем фрейме данных, чтобы улучшить форматирование.

df = df.select(a, substring(col("b"), 4, 6).as("b1"), c)
...