Предполагая, что у нас есть фрейм данных (третий столбец - столбец даты), который содержит наблюдения нерегулярных событий, начиная с января 2000 года по октябрь 2011 года. Цель состоит в том, чтобы выбрать те строки фрейма данных, которые содержат наблюдения между двумя датами
start<-"2005/09/30"
end<-"2011/01/31"
Исходный фрейм данных содержит около 21 000 строк. Мы можем проверить это, используя
length(df_original$date_column)
.
Теперь мы создаем новый фрейм данных, который содержит даты, более новые, чем дата начала:
df_new<-df_original[df_original$date_column>start,]
Если я проверю длину с помощью length(df_new$date_column)
, то для длины будет показано около 13 000.
Теперь мы создадим еще один фрейм данных, применяя второй критерий (меньше даты окончания):
df_new2<-df_new[df_new$date_column<end,]
Если я еще раз проверю длину, используя length(df_new2$date_column)
, то будет показано около 19 000 отсчетов для длины.
Как это возможно, что при применении второго критерия к новому фрейму данных df_new
количество строк увеличивается? df_new
должно иметь количество строк, равное или меньшее 13 000.
Фрейм данных довольно большой, поэтому я не могу разместить его здесь. Может быть, кто-то может указать причину, при которой такое поведение происходит.