недостающие данные во временных рядах - PullRequest
0 голосов
/ 26 января 2020

Поскольку я так новичок в этой области, и я пытаюсь изучить данные для временного ряда, найти пропущенные значения и подсчитать их, изучить распределение их длины и заполнить эти пробелы, дело в том, что у меня есть, давайте скажем, 10 file.txt и для каждого файла у меня есть 2 столбца следующим образом:

C1 C2

944 0

920 1

920 2

928 3

912 7

920 8

920 9

880 10

888 11

920 12

944 13

и т. Д. ... скажем, до 100, и необязательно 10 файлов имеют одинаковое количество наблюдений.

, поэтому здесь для Например, пропущенные значения, которые необязательно отображаются во всех имеющихся у меня файлах: пропущенные значения: 4,5 и 6 в C2 и соответствующий 1-й столбец C1 (измеряется в миллисекундах, поэтому значение 928 мсек не является временным соседом 912 мс) , Поэтому я хочу найти эти пропуски (общее количество пропущенных значений во всех 10 файлах) и показать гистограмму их длин.

Я написал фрагмент кода на R, но проблема в том, что я не получаю точное общее число, которое я должен иметь для пропущенных значений.

path = "files path"

out.file<-data.frame(TS = 0, Index = 0, File = '')

file.names <- dir(path, pattern =".txt")

for(i in 1:length(file.names)){

   file <- cbind(read.table(file.names[i],
                            header=F, 
                            sep ="\t", 
                            stringsAsFactors=FALSE),
                 file.names[i])

   colnames(file) <- c('TS', 'Index', 'File')

   out.file <- rbind(out.file, file)

}

d = dim(out.file)[1]

misDa = 0

for(i in 2:(d-1)){

  if(abs(out.file$Index[i]-out.file$Index[i+1]) > 1)

  misDa = misDa+1

}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...