Как построить с использованием matplotlib и pandas в среде pyspark? - PullRequest
0 голосов
/ 08 мая 2018

У меня очень большой фрейм данных pyspark, и я взял образец и преобразовал его в pandas dataframe

sample = heavy_pivot.sample(False, fraction = 0.2, seed = None)
sample_pd = sample.toPandas()

Фрейм данных выглядит следующим образом:

sample_pd[['client_id', 'beer_freq']].head(10)


  client_id  beer_freq
0   1000839   0.000000
1   1002185   0.000000
2   1003366   1.000000
3   1005218   1.000000
4   1005483   1.000000
5    100964   0.434783
6    101272   0.166667
7   1017462   0.000000
8   1020561   0.000000
9   1023646   0.000000

Я хочу построить гистограмму столбца "beer_freq"

import matplotlib.pyplot as plt
matplotlib.pyplot.switch_backend('agg')

sample_pd.hist('beer_freq', bins = 100)

Сюжет не обнаружился ... Это дает такие результаты:

 >>>array([[<matplotlib.axes._subplots.AxesSubplot object at 0x7f60f6fd0750>]], dtype=object)

Кажется, что я не могу написать общий код на python, используя matplotlib и pandas dataframe для построения фигур в среде pyspark.

Если я позвоню plt.show() Ничего не случится ...

Ответы [ 2 ]

0 голосов
/ 18 февраля 2019

% inline matplotlib не поддерживается в Databricks. Вы можете отобразить цифры matplotlib, используя display (). Например, см. https://docs.databricks.com/user-guide/visualizations/matplotlib-and-ggplot.html

0 голосов
/ 20 августа 2018

Попробуйте следующее:

import matplotlib.pyplot as plt
%matplotlib inline
...