Условный setdiff (all-to-all) для двух столбцов из двух кадров данных с числовым диапазоном для сопоставления - PullRequest
0 голосов
/ 01 ноября 2018

Вот два примера фрейма данных:

df1 <- data.frame(Time1v1 = c(55.25, 59.36, 40.26, 786.008, 980.569, 11.2, 10.11, 23.11),
                  Time2v1 = c(81, 12, 13, 11.0112, 93.9, 14.8, 15.3, 78.91))

df2 <- data.frame(Time1v2 = c(10.13, 980.659, 14.42, 90.1, 40.3298, 9234, 59.35),
                  Time2v2 = c(25.1, 88.9, 120, 911, 22.1253, 81, 15.1))


> df1
  Time1v1 Time2v1
1  55.250 81.0000
2  59.360 12.0000
3  40.260 13.0000
4 786.008 11.0112
5 980.569 93.9000
6  11.200 14.8000
7  10.110 15.3000
8  23.110 78.9100

> df2
    Time1v2 Time2v2
1   10.1300   25.1000
2  980.6590   88.9000
3   14.4200  120.0000
4   90.1000  911.0000
5   40.3298   22.1253
6 9234.0000   81.0000
7   59.3500   15.1000

Я хочу сравнить каждую строку df1 с каждой строкой df2. Если разница между Time1 от df1 и df2 находится в диапазоне [-0.1,+0.1] И разница в Time2 находится в диапазоне [-10,+10], то эту конкретную строку из df1 необходимо удалить.


ПОПЫТКА РЕШИТЬ

Вот попытка решить это. Есть ли лучший способ?

df1$remove <- rep("No", nrow(df1))
for(i in 1:nrow(df1)){
    for(j in 1:nrow(df2)){
        if(data.table::inrange(df1$Time1v1[i], df2$Time1v2[j] - 0.1, df2$Time1v2[j] + 0.1) && data.table::inrange(df1$Time2v1[i], df2$Time2v2[j] - 10, df2$Time2v2[j] + 10)) {df1$remove[i] <- "remove"}
    }
}

Это дает мне:

> df1
      Time1v1 Time2v1 remove
    1  55.250 81.0000     No
    2  59.360 12.0000 remove
    3  40.260 13.0000 remove
    4 786.008 11.0112     No
    5 980.569 93.9000 remove
    6  11.200 14.8000     No
    7  10.110 15.3000 remove
    8  23.110 78.9100     No

ОЖИДАЕМЫЙ ФИНАЛЬНЫЙ РЕЗУЛЬТАТ

И наконец ожидаемый вывод будет:

> df1[which(df1$remove != "remove"),-3]

  Time1v1 Time2v1
1  55.250 81.0000
4 786.008 11.0112
6  11.200 14.8000
8  23.110 78.9100

СВЯЗАННЫХ

Выполнение непарных парных сравнений между всеми двумя неупорядоченными символьными векторами --- противоположность пересечения --- все-ко всем setdiff

Все-ко-всему setdiff для двух числовых векторов с числовым порогом для принятия совпадений

Ответы [ 2 ]

0 голосов
/ 01 ноября 2018

Перейдите к ближайшему значению и найдите расстояние:

library(data.table)
setDT(df1); setDT(df2)

df1[, dist1 := df2[df1, on=.(Time1v2 = Time1v1), roll="nearest", abs(x.Time1v2 - i.Time1v1)]]
df1[, dist2 := df2[df1, on=.(Time2v2 = Time2v1), roll="nearest", abs(x.Time2v2 - i.Time2v1)]]

df1[dist1 > 0.1 | dist2 > 10]

   Time1v1 Time2v1   dist1  dist2
1:  55.250 81.0000   4.100 0.0000
2: 786.008 11.0112 194.651 4.0888
3:  11.200 14.8000   1.070 0.3000
4:  23.110 78.9100   8.690 2.0900
0 голосов
/ 01 ноября 2018

Вот ручной метод (объявление столбцов вручную),

 m1 <- outer(df1$Time1v1, df2$Time1v2, `-`)
 m2 <- outer(df1$Time2v1, df2$Timev2, `-`)

i1 <- intersect(which(m1 >= -0.1 & m1 <= 0.1, arr.ind = TRUE)[,1], 
                which(m2 >= -10 & m2 <= 10, arr.ind = TRUE)[,1])
df1[-i1,]

#  Time1v1 Time2v1
#1  55.250 81.0000
#4 786.008 11.0112
#6  11.200 14.8000
#8  23.110 78.9100
...