Сравнивая все строки внутри фрейма данных и условно применяя функцию - PullRequest
2 голосов
/ 06 мая 2019

У меня есть этот фрейм данных, и я хочу сравнить все значения внутри этого фрейма данных.

dat <- tibble::tibble(
name = c("a","b","c"),
value = c(1,2,3))

Я хочу сравнить все пары строк в этом кадре данных, и в этом случае я хочу разделить меньшее число на большее число.

Конечный фрейм данных должен выглядеть следующим образом:

a,b,0.5
a,c,0.33
b,c,0.66

Есть ли способ добиться этого?

Ответы [ 3 ]

3 голосов
/ 06 мая 2019

Используя пакет data.table, мы можем объединить dat с самим собой при условии, что одно значение меньше другого, и вычислить соотношение со столбцами объединенной таблицы.

library(data.table)
setDT(dat)

out <- 
  dat[dat, on = .(value < value), 
       .(name1 = x.name,
         name2 = i.name,
         ratio = x.value/i.value)]

out <- out[!is.na(ratio)]

out
#    name1 name2     ratio
# 1:     a     b 0.5000000
# 2:     a     c 0.3333333
# 3:     b     c 0.6666667
2 голосов
/ 06 мая 2019

Один вариант будет

v1 <-  setNames(dat$value, dat$name)
do.call(rbind, combn(v1, 2, FUN = function(x) 
 setNames(data.frame(as.list(names(x)), round(Reduce(`/`, x[order(x)]), 2)), 
      c("col1", "col2", "val")), simplify = FALSE))
#   col1 col2  val
#1    a    b 0.50
#2    a    c 0.33
#3    b    c 0.67

Или опция с fuzzyjoin (вдохновлено постом @ IceCreamToucan)

library(fuzzyjoin)
fuzzy_inner_join(dat, dat, by = "name", match_fun = list(`<`)) %>% 
    transmute(col1 = name.x, col2 = name.y, val = value.x/value.y)
# A tibble: 3 x 3
#  col1  col2    val
#  <chr> <chr> <dbl>
#1 a     b     0.5  
#2 a     c     0.333
#3 b     c     0.667
1 голос
/ 06 мая 2019

Мы можем использовать tidyverse:

library(tidyverse)
dat %>% expand(name, name) %>% cbind(expand(dat, value,value)) %>%
        filter(value1>value) %>%
        mutate(ratio=value/value1)
    #>   name name1 value value1     ratio
    #> 1    a     b     1      2 0.5000000
    #> 2    a     c     1      3 0.3333333
    #> 3    b     c     2      3 0.6666667

Или просто каракули в base r:

df <- cbind(expand.grid(dat$name,dat$name), expand.grid(dat$value, dat$value))   
df <- df[order(df[,3], -df[,4]),]    
df <- df[df[,3] < df[,4],]
df$ratio <- df[,3] / df[,4]
df[,-c(3,4)] -> df
df
    #>   Var1 Var2     ratio
    #> 7    a    c 0.3333333
    #> 4    a    b 0.5000000
    #> 8    b    c 0.6666667
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...