Итак, вот моя проблема: у меня есть необработанные данные ежедневной процентной ставки за период с 2010 по 2019 год. Однако есть несколько дат, которые отсутствуют.
1244 9-Jul-10 5.053
1245 8-Jul-10 5.007
1246 7-Jul-10 4.991
1247 6-Jul-10 4.976
1248 28-Jun-10 4.850
1249 21-Jun-10 4.900
1250 18-Jun-10 5.000
1251 14-Jun-10 3.800
1252 9-Jun-10 3.850
1253 1-Jun-10 3.950
1254 31-May-10 3.950
Когда я импортирую данные в R, он отображает 1254 данных, которые представляют собой объем данных, которые у меня фактически есть.
interest <-read.csv("C:/Users/SOOGRIM/Desktop/Interest4.csv",header=TRUE,stringsAsFactors=FALSE)
Проценты Дата Цена
1 21 января 19,50 2 20 января 19 3,550 3 19 января 19 3,550 4 18 января 19 3,550 5 17 января-19 3,630 резюме (проценты) Дата Цена X
Длина: 1254 Мин.: 0,861 мин.: 1.000
Класс: символ 1-й кв.: 2.400 1-й кв .: 1.000
Режим: символ Медиана: 2.900 Медиана: 2.000
Значение: 3.000 Среднее: 3.031
3-й кв .: 3..670 3-й кв.: 6.000
Макс.: 5.674 Макс.: 10.000
NA: 1222 **
Однако при преобразовании его во временные ряды он интерполирует данные для пропущенных дат и в итоге составляет 3281.
interest.ts <-ts(data=interest$Price,frequency=365,start=c(2010,06),end=c(2019,01))
Сводка (интере.ц.) Мин.1 кв.Медиана Среднее 3 кв.Максимум.0,861 2,450 2,900 3,001 3,680 5,674 длины (интереса) [1] 3281 **
Это влияет на мой прогноз процентной ставки.
Я хочу иметь возможность определить пропущенную дату в моих ежедневных значениях и автоматически заменить ее на R. Я исследовал пакет imputeTS
и lubridate
.Я не знаю, какую функцию использовать для перенумерации даты и отображения NaN для переменной «цена» соответственно.
Затем я буду использовать правильный метод интерполяции, который доступен в пакете imputeTS, для интерполяции значений для переменной «цена».
Просто я просто хочу узнать, как автоматически добавить отсутствующую дату в R. Поскольку пропущено более 1000 дат, утомительно делать это вручную в Excel.