Создайте гистограмму для нескольких столбцов из фрейма данных в pyspark - PullRequest
0 голосов
/ 07 октября 2018

У меня есть DF с двумя столбцами: date (в виде строкового формата) и count:

+---------+-----+
|     date|count|
+---------+-----+
|  2018-05|    1|
|  2018-02|    4|
|  2017-11|   41|
|  2017-04|   21|
|  2017-02|   13|

, и я хочу создать график, где на оси X будут даты (как интервал между датами)будет через месяц) и по оси Y будет считаться число.Для одного столбца это работает, но как это сделать для двух столбцов?

import matplotlib.pyplot as plt
from pyspark_dist_explore import hist

def draw_histogram(df1):
    fig, axes = plt.subplots(nrows=2, ncols=2)
    fig.set_size_inches(20, 20)
    hist(axes[0, 0], [df1], bins=20, color=['red'])
    axes[0, 0].set_xlabel('X-Axis')
    axes[0, 0].set_ylabel('Y-Axis')
    plt.savefig('Histogram')

df_page = df.withColumn("date", f.concat(f.year("editTime"), f.lit('-'), format_string("%02d", f.month("editTime"))))
    df = df_page.groupBy("date", "title").count().orderBy(desc("count"))

draw_histogram(df)

Я получаю сообщение об ошибке: Добавляется более одного столбца, используйте add_data () для добавленияDataFrames с несколькими столбцами

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...