Question

У меня есть два набора данных разной длины, я хочу сравнить значения в одном столбце, если они имеют одинаковый идентификатор, и удалить те строки, значения которых меньше. Например, у меня есть dataset_1 и dataset_2, как показано ниже, я хочу сравнить значения в столбце «time» по case.id и удалить те строки из dataset_2, что значения меньше значения в dataset_1.

dataset_1 <-    case.id time
             1    xxx1    1
             2    xxx2    2
             3    xxx3    3
dataset_2 <-    case.id distance time
             1    xxx1      100  0.8
             2    xxx1       50  1.2
             3    xxx1       40  2.0
             4    xxx2       50  3.0
             5    xxx2       40  4.0
             6    xxx3      100  2.5
             7    xxx3       50  3.0
             8    xxx3      100  3.5
             9    xxx3       50  5.0

Мой ожидаемый результат должен быть таким,

new_dataset_2  <-   case.id distance time
                  1    xxx1       50  1.2
                  2    xxx1       40  2.0
                  3    xxx2       50  3.0
                  4    xxx2       40  4.0
                  5    xxx3       50  3.0
                  6    xxx3      100  3.5
                  7    xxx3       50  5.0

Данные

dataset_1 <- structure(list(case.id = c("xxx1", "xxx2", "xxx3"), time = 1:3), .Names = c("case.id", 
"time"), class = "data.frame", row.names = c("1", "2", "3"))

dataset_2 <- structure(list(case.id = c("xxx1", "xxx1", "xxx1", "xxx2", "xxx2", 
"xxx3", "xxx3", "xxx3", "xxx3"), distance = c(100L, 50L, 40L, 
50L, 40L, 100L, 50L, 100L, 50L), time = c(0.8, 1.2, 2, 3, 4, 
2.5, 3, 3.5, 5)), .Names = c("case.id", "distance", "time"), class = "data.frame", row.names = c("1", 
"2", "3", "4", "5", "6", "7", "8", "9"))

Anonymous coward · Answer 1 · 01 сентября 2018

Merge всегда хороший вариант. Другой вариант - match, который вы можете использовать для логического подмножества.

dataset_2[dataset_2$time >= dataset_1$time[match(dataset_2$case.id, dataset_1$case.id)], ]

  case.id distance time
2    xxx1       50  1.2
3    xxx1       40  2.0
4    xxx2       50  3.0
5    xxx2       40  4.0
7    xxx3       50  3.0
8    xxx3      100  3.5
9    xxx3       50  5.0

Чтобы разбить, что происходит:

match(dataset_2$case.id, dataset_1$case.id) #finds the places where case.id in dataset_2  matches case.id in dataset_1
[1] 1 1 1 2 2 3 3 3 3

dataset_1$time[match(dataset_2$case.id, dataset_1$case.id)] #since position and time are the same number, it's hard to tell, but this creates a vector of time based on those positions, another example will follow with different numbers
[1] 1 1 1 2 2 3 3 3 3

dataset_2$time >= dataset_1$time[match(dataset_2$case.id, dataset_1$case.id)] #compares the times and creates a logical
[1] FALSE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE

И, наконец, подмножество dataset_2 с использованием этой логики.

Вот пример использования различных значений для лучшей иллюстрации.

dataset_3 <- data.frame(case.id = c("xxx1", "xxx2", "xxx3"), time = c(16,0.2,2.15))

dataset_4 <- data.frame(case.id = c("xxx1","xxx1","xxx1","xxx2","xxx2","xxx2","xxx3","xxx3","xxx3"),
                       distance = c(100,50,40,50,40,100,50,100,50), time = c(17,0.1,1.2,17,4.0,2.5,1.3,8,0.1))

dataset_4[dataset_4$time >= dataset_3$time[match(dataset_4$case.id, dataset_3$case.id)],]

  case.id distance time
1    xxx1      100 17.0
4    xxx2       50 17.0
5    xxx2       40  4.0
6    xxx2      100  2.5
8    xxx3      100  8.0

markus · Answer 2 · 31 августа 2018

Вы можете merge два кадра данных, а затем подмножество на основе ваших критериев.

df_out <- merge(dataset_2, dataset_1, by = "case.id")
idx <- with(df_out, time.x >= time.y) # creates a logical vector we use for subsetting

df_out <- df_out[idx, c('case.id', 'distance', 'time.x')] # subset and filter
df_out <- setNames(df_out, names(dataset_2)) # rename columns
df_out
#  case.id distance time
#2    xxx1       50  1.2
#3    xxx1       40  2.0
#4    xxx2       50  3.0
#5    xxx2       40  4.0
#7    xxx3       50  3.0
#8    xxx3      100  3.5
#9    xxx3       50  5.0

Сопоставьте столбцы в двух наборах данных разного размера и удалите строки по критериям

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сопоставьте столбцы в двух наборах данных разного размера и удалите строки по критериям

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов