Как составить таблицу смежности - PullRequest
0 голосов
/ 16 января 2020

У меня есть похожие данные

mydf <- data.frame(p1=c('a','a','a','b','b','b','c','c','d'),
                   p2=c('b','c','d','c','d','e','d','e','e'),
                   p3=c('a','a','c','c','d','d','d','a','a'),
                   p4=c('a','a','b','c','c','e','d','a','b'),
                   p5=c('a','b','c','d','e','b','b','c','c'),
                   source=c('a','b','c','d','e','e','a','b','d'))

Что дает:

   p1 p2 p3 p4 p5 source
1  a  b  a  a  a      a
2  a  c  a  a  b      b
3  a  d  c  b  c      c
4  b  c  c  c  d      d
5  b  d  d  c  e      e
6  b  e  d  e  b      e
7  c  d  d  d  b      a
8  c  e  a  a  c      b
9  d  e  a  b  c      d

Я хочу создать две матрицы смежности как количество соединений между источником и остальными столбцами. Например:

   a  b  c  d  e  
a  4  2
b  5  1
c  1  1
d  1  2
e  0  3

Есть ли способ сделать это легко. Буду признателен за любую помощь

1 Ответ

1 голос
/ 05 апреля 2020

В базе R мы можем использовать unlist и table:

table(rep(mydf$source, ncol(mydf) - 1), unlist(mydf[-ncol(mydf)]))

#    a b c d e
#  a 4 2 1 3 0
#  b 5 1 3 0 1
#  c 1 1 2 1 0
#  d 1 2 4 2 1
#  e 0 3 1 3 3

Другим подходом может быть получение данных в длинном формате, count на основе source и получить данные в широком формате снова.

library(dplyr)
library(tidyr)

mydf %>%
  pivot_longer(cols = -source) %>%
  count(source, value) %>%
  pivot_wider(names_from = value, values_from = n, values_fill = list(n = 0))

#  source     a     b     c     d     e
#  <fct>  <int> <int> <int> <int> <int>
#1 a          4     2     1     3     0
#2 b          5     1     3     0     1
#3 c          1     1     2     1     0
#4 d          1     2     4     2     1
#5 e          0     3     1     3     3
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...