Отсутствующие значения в необработанных данных - PullRequest
0 голосов
/ 02 февраля 2019

Итак, вот моя проблема: у меня есть необработанные данные ежедневной процентной ставки за период с 2010 по 2019 год. Однако есть несколько дат, которые отсутствуют.

1244 9-Jul-10 5.053 1245 8-Jul-10 5.007 1246 7-Jul-10 4.991 1247 6-Jul-10 4.976 1248 28-Jun-10 4.850 1249 21-Jun-10 4.900 1250 18-Jun-10 5.000 1251 14-Jun-10 3.800 1252 9-Jun-10 3.850 1253 1-Jun-10 3.950 1254 31-May-10 3.950

Когда я импортирую данные в R, он отображает 1254 данных, которые представляют собой объем данных, которые у меня фактически есть.

interest <-read.csv("C:/Users/SOOGRIM/Desktop/Interest4.csv",header=TRUE,stringsAsFactors=FALSE)

Проценты Дата Цена
1 21 января 19,50 2 20 января 19 3,550 3 19 января 19 3,550 4 18 января 19 3,550 5 17 января-19 3,630 резюме (проценты) Дата Цена X
Длина: 1254 Мин.: 0,861 мин.: 1.000
Класс: символ 1-й кв.: 2.400 1-й кв .: 1.000
Режим: символ Медиана: 2.900 Медиана: 2.000
Значение: 3.000 Среднее: 3.031
3-й кв .: 3..670 3-й кв.: 6.000
Макс.: 5.674 Макс.: 10.000
NA: 1222 **

Однако при преобразовании его во временные ряды он интерполирует данные для пропущенных дат и в итоге составляет 3281.

interest.ts <-ts(data=interest$Price,frequency=365,start=c(2010,06),end=c(2019,01))

Сводка (интере.ц.) Мин.1 кв.Медиана Среднее 3 кв.Максимум.0,861 2,450 2,900 3,001 3,680 5,674 длины (интереса) [1] 3281 **

Это влияет на мой прогноз процентной ставки.

Я хочу иметь возможность определить пропущенную дату в моих ежедневных значениях и автоматически заменить ее на R. Я исследовал пакет imputeTS и lubridate.Я не знаю, какую функцию использовать для перенумерации даты и отображения NaN для переменной «цена» соответственно.

Затем я буду использовать правильный метод интерполяции, который доступен в пакете imputeTS, для интерполяции значений для переменной «цена».

Просто я просто хочу узнать, как автоматически добавить отсутствующую дату в R. Поскольку пропущено более 1000 дат, утомительно делать это вручную в Excel.

...