Как изменить форму фрейма данных с уровня строки на уровень человека в R - PullRequest
1 голос
/ 15 марта 2020

У меня есть следующие коды для эксперимента Netflix, чтобы снизить цену Netflix и посмотреть, смотрят ли люди более или менее телевизор. Каждый раз, когда кто-то использует Netflix, он показывает, что он смотрел и как долго он смотрел его.

**library(tidyverse)
sample_size <- 10000
set.seed(853)
viewing_data <-
tibble(unique_person_id = sample(x = c(1:100),
size = sample_size,
replace = TRUE),
tv_show = sample(x = c("Broadchurch", "Duty-Shame", "Drive to Survive", "Shetland", "The Crown"),
size = sample_size,
replace = TRUE),
)**

Затем я хочу написать некоторый код, который бы случайным образом распределил людей в одну из двух групп - лечение и контроль. Тем не менее, набор данных находится на уровне строк, поскольку существует 1000 наблюдений. Я хочу изменить это на уровень человека в R, тогда я мог бы подписать человека, которого лечат или нет. Человек не должен лечиться и не лечиться. Тем не менее, tv_show показывает много раз для одного человека. Кто-нибудь знает, как изменить форму набора данных в этом случае?

Ответы [ 3 ]

0 голосов
/ 15 марта 2020

Вы можете сделать следующее, это группирует ваши наблюдения по идентификатору человека, назначает уникальное «лечение / контроль» для каждой группы:

library(dplyr)
viewing_data %>% 
group_by(unique_person_id) %>% 
mutate(group=sample(c("treated","control"),1))

# A tibble: 10,000 x 3
# Groups:   unique_person_id [100]
   unique_person_id tv_show          group  
              <int> <chr>            <chr>  
 1                9 Drive to Survive control
 2               64 Shetland         treated
 3               90 The Crown        treated
 4               93 Drive to Survive treated
 5               17 Duty-Shame       treated
 6               29 The Crown        control
 7               84 Broadchurch      control
 8               83 The Crown        treated
 9                3 The Crown        control
10               33 Broadchurch      control
# … with 9,990 more rows

Мы можем проверить наши результаты, все идентификаторы имеют только 1 группа обработанных / контроль:

newdata <- viewing_data %>% 
    group_by(unique_person_id) %>% 
    mutate(group=sample(c("treated","control"),1))

tapply(newdata$group,newdata$unique_person_id,n_distinct)
  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
  1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
 21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
  1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
 41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
  1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
 61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
  1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
 81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 
  1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
0 голосов
/ 15 марта 2020

Если вам нужно случайное и равное распределение лиц в две группы (полное случайное распределение), вы можете использовать следующий код:

library(dplyr)

Persons <- viewing_data %>%
  distinct(unique_person_id) %>%
  mutate(group=sample(100),  # in case the ids are not truly random
         group=ifelse(group %% 2 == 0, 0, 1))  # works if only two groups
Persons

# A tibble: 100 x 2
   unique_person_id group
              <int> <dbl>
 1                1     0
 2                2     0
 3                3     1
 4                4     0
 5                5     1
 6                6     1
 7                7     1
 8                8     0
 9                9     1
10               10     0
# ... with 90 more rows

И чтобы убедиться, что у нас есть 50 в каждой группе:

Persons %>% count(group)

# A tibble: 2 x 2
  group     n
  <dbl> <int>
1     0    50
2     1    50

Вы также можете использовать пакет randomizr , который имеет гораздо больше функций, кроме полное случайное распределение.

library(randomizr)

Persons <- viewing_data %>%
  distinct(unique_person_id) %>%
  mutate(group=complete_ra(N=100, m=50))

Persons %>% count(group) # Check

Чтобы связать это обратно с view_data, используйте inner_join.

viewing_data %>% inner_join(Persons, by="unique_person_id")

# A tibble: 10,000 x 3
   unique_person_id tv_show          group
              <int> <chr>            <int>
 1               10 Shetland             1
 2               95 Broadchurch          0
 3                7 Duty-Shame           1
 4               68 Drive to Survive     0
 5               17 Drive to Survive     1
 6               70 Shetland             0
 7               78 Drive to Survive     0
 8               21 Broadchurch          1
 9               80 The Crown            0
10               70 Shetland             0
# ... with 9,990 more rows
0 голосов
/ 15 марта 2020
library(dplyr)
treatment <- viewing_data %>% 
  distinct(unique_person_id) %>% 
  mutate(treated = sample(c("yes", "no"), size = 100, replace = TRUE))

viewing_data %>% 
  left_join(treatment, by = "unique_person_id")

Вы можете изменить способ выборки, если вам нужно ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...