Я работаю над модифицированной версией Данные о качестве воздуха из UCI .
Данные были записаны с марта 2004 года по апрель 2005 года (один год). Предоставляются среднесуточные концентрации Ground Truth для общих оксидов азота (NOx) и диоксида азота (NO2), а также информация о погодных условиях. Недостающие значения помечаются значением -200. Описание переменных доступно в таблице 1.
Таблица 1: Описание переменных :
- Дата Дата (дд / мм / гггг)
- NOx Истинная среднечасовая концентрация NOx в миллионных долях
- NO2 Истинная среднечасовая концентрация NO2 в мкг / м3 Температура Температура в ° C
- Температура Температура в C
- RH Относительная влажность (%)
- AH Абсолютная влажность
- Сначала я преобразовал формат даты, а затем фрейм данных в его объект, так как ts был неверная дата.
- Мои данные содержат ежедневные наблюдения, я запутался, стоит ли мне указывать частоту в функции xts или нет.
- Поскольку мне приходится прогнозировать содержание NOx для всего В январе месяце я разбил свои данные на тестовый и обучающий набор
- Пропущенные значения помечены в данных как -200, и я хочу заменить их на среднее значение. Как мне это сделать?
- Пожалуйста, подскажите, как мне начать с суммы Мэри статистика и графики, как ее временной ряд с несколькими переменными, но я должен только прогнозировать NOx
- Я хочу подогнать модель для прогнозирования NOx для моих тестовых данных и анализа остаточных результатов.
Это мой код:
#reading the time series
Airq = read.csv("/Users/aakanksharai/Downloads/AirQualityCourseworkNew.csv")
str(Airq)
Airq$Date <- as.Date(Airq$Date, format = "%d/%m/%Y")
Airq
#Changing into time-series format
Airq_ts <- xts(x=Airq[,-1], order.by = Airq$Date, frequency = 7)
head(Airq_ts)
airq_train <- window(Airq_ts, start = c("2004-03-11") , end = c("2004-12-31"))
airq_test <- window(Airq_ts, start = c("2005-01-01"), end = c("2005-01-31"))
summary(airq_train)
str(airq_train)
plot.xts(airq_train)
nrow(airq_train)
nrow(airq_test)