Поскольку я так новичок в этой области, и я пытаюсь изучить данные для временного ряда, найти пропущенные значения и подсчитать их, изучить распределение их длины и заполнить эти пробелы, дело в том, что у меня есть, давайте скажем, 10 file.txt и для каждого файла у меня есть 2 столбца следующим образом:
C1 C2
944 0
920 1
920 2
928 3
912 7
920 8
920 9
880 10
888 11
920 12
944 13
и т. Д. ... скажем, до 100, и необязательно 10 файлов имеют одинаковое количество наблюдений.
, поэтому здесь для Например, пропущенные значения, которые необязательно отображаются во всех имеющихся у меня файлах: пропущенные значения: 4,5 и 6 в C2 и соответствующий 1-й столбец C1 (измеряется в миллисекундах, поэтому значение 928 мсек не является временным соседом 912 мс) , Поэтому я хочу найти эти пропуски (общее количество пропущенных значений во всех 10 файлах) и показать гистограмму их длин.
Я написал фрагмент кода на R, но проблема в том, что я не получаю точное общее число, которое я должен иметь для пропущенных значений.
path = "files path"
out.file<-data.frame(TS = 0, Index = 0, File = '')
file.names <- dir(path, pattern =".txt")
for(i in 1:length(file.names)){
file <- cbind(read.table(file.names[i],
header=F,
sep ="\t",
stringsAsFactors=FALSE),
file.names[i])
colnames(file) <- c('TS', 'Index', 'File')
out.file <- rbind(out.file, file)
}
d = dim(out.file)[1]
misDa = 0
for(i in 2:(d-1)){
if(abs(out.file$Index[i]-out.file$Index[i+1]) > 1)
misDa = misDa+1
}