У меня очень большой фрейм данных pyspark, и я взял образец и преобразовал его в pandas dataframe
sample = heavy_pivot.sample(False, fraction = 0.2, seed = None)
sample_pd = sample.toPandas()
Фрейм данных выглядит следующим образом:
sample_pd[['client_id', 'beer_freq']].head(10)
client_id beer_freq
0 1000839 0.000000
1 1002185 0.000000
2 1003366 1.000000
3 1005218 1.000000
4 1005483 1.000000
5 100964 0.434783
6 101272 0.166667
7 1017462 0.000000
8 1020561 0.000000
9 1023646 0.000000
Я хочу построить гистограмму столбца "beer_freq"
import matplotlib.pyplot as plt
matplotlib.pyplot.switch_backend('agg')
sample_pd.hist('beer_freq', bins = 100)
Сюжет не обнаружился ...
Это дает такие результаты:
>>>array([[<matplotlib.axes._subplots.AxesSubplot object at 0x7f60f6fd0750>]], dtype=object)
Кажется, что я не могу написать общий код на python, используя matplotlib и pandas dataframe для построения фигур в среде pyspark.
Если я позвоню plt.show()
Ничего не случится ...