Я пытаюсь построить модель машинного обучения для прогнозирования VAR1 для каждого района во времени.Использование данных временного ряда (год и месяц).Тем не менее, данные содержат много окрестностей (которые являются основой анализа).Таким образом, каждый район будет повторяться 3 года * 12 месяцев = 36 раз .
Мне нужно объединить эти данные с другими наборами данных.Все остальные наборы данных имеют одинаковое количество областей и имеют год, но не имеют месяца.
Мне нужна помощь о том, как объединить эти наборы данных и провести анализ.Я работаю в R.
При объединении наборов данных я постараюсь перенести строки в других наборах данных в столбцы, чтобы у меня было меньше экземпляров для каждой области.
Вот примернекоторые главы некоторых наборов данных (в R):
head(df)
Year Month District Neighborhood Gender VAR1
1 2017 January 1 1 M 2000
2 2017 January 1 2 M 350
3 2017 January 1 3 M 700
4 2017 January 1 4 M 400
5 2017 January 2 5 M 1000
6 2017 January 2 6 M 200
tail(df)
Year Month District Neighborhood Gender VAR1
10577 2015 December 10 69 F 200
10578 2015 December 10 70 F 1000
10579 2015 December 10 71 F 500
10580 2015 December 10 72 F 350
10581 2015 December 10 73 F 300
10582 2015 December 99 99 F 770
Мне нужна помощь в двух вещах:
Во-первых, мне нужно знать, как я могу объединить примервыше с другими наборами данных, у которых нет месяца.
Я застрял на том, как делать EDA и анализировать этот набор данных, и был бы признателен за помощь здесь.