У меня есть следующие данные
df = pd.DataFrame({
'region' : ['a', 'a', 'a','a',' a','a','a', 's', 's','s','l','a','c','a', 'e','a','g', 'd','c','d','a','f','a','a','a'],
'month_number' : [5, 12, 3, 12, 3, 6,7,8,9,10,11,12,4,5,2,6,7,8,3, 4, 7, 6,7,8,8],
'score' : [2.5, 5, 3.5, 2.5, 5.5, 3.5,2,3.5,4,2,1.5,1,1.5,4,5.5,2,3,1,2,3.5,4,2,3.5,3,4]})
Я хочу рассчитать среднее значение для региона и создать его тренд за год, так как в последний раз я хочу получить линию наилучшего соответствия, чтобы увидеть, растет ли тренд с течением времени.
(Не для прогнозируемых значений, просто в среднем)
Я отфильтровал регион 'a':
filtered = df[(df['region'] == 'a')]
И создал тренд:
filtered.groupby(['month_number','region']).mean()['score'].unstack().plot(figsize=(10,6))
Это дает следующее:

Теперь я застрял в той части, которая соответствует наилучшей линии тренда. В конце концов, моя цель - создать столбец со значениями плюса или минуса, указывающими тенденцию к росту или падению в этом регионе. Если есть какой-то другой подход к этому, я хотел бы услышать это.