Я пытаюсь создать линейную модель для прогнозирования количества преступлений в данном году.
Набор данных настроен следующим образом: -
Пример: -
Каждая точка данных относится к преступлению на данную дату
Date Crime
12-31-15 yes
12-15-15 yes
11-14-13 yes
03-15-11 yes
Я хочу провести линейную регрессию, где моим предиктором является год, а прогнозируемой переменной - количество преступлений в год.
То, что я сделал, рассчитывается подсчет преступлений за каждый год, давая мне в основном:
df['countsofarrests'] = df.groupby('year')['year'].transform('count')
x (2011, 2012, 2013... 2018)
лет
y (4123, 2312, 3231... 1231)
суммапреступности в год
Мой вопрос: могу ли я сделать это таким образом, чтобы я мог предсказать преступность в 2019 году и объединить по годам? Делая это таким образом, я чувствую, что теряю много данных.
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
model = regressor.fit(x, y)
model.predict(2019)