Question

В настоящее время я пытаюсь применить функцию суммирования, чтобы выделить соответствующие наблюдения из большого набора данных.Здесь приведен простой воспроизводимый пример:

df <- data.frame(c(1,1,1,2,2,2,3,3,3), as.logical(c(TRUE,FALSE,TRUE,TRUE,TRUE,TRUE,FALSE,TRUE,FALSE)),
                 as.numeric(c(0,5,0,0,0,0,7,0,7)))
colnames(df) <- c("ID", "Status", "Price")

  ID Status Price
1  1   TRUE     0
2  1  FALSE     5
3  1   TRUE     0
4  2   TRUE     0
5  2   TRUE     0
6  2   TRUE     0
7  3  FALSE     7
8  3   TRUE     0
9  3  FALSE     7

Я хотел бы отсортировать таблицу по наблюдениям и получить статус ИСТИНА, только если все три наблюдения ИСТИННЫ (вычислены), а затем хотите получить цену, соответствующуюк состоянию (т. е. 5 для наблюдения 1 как ЛОЖЬ, 0 для наблюдения 2 как ИСТИНА и 7 для наблюдения 3 как ЛОЖЬ).

С Суммируем с условиями в dplyr Я понял, чтоЯ могу, как обычно, указать условия в квадратных скобках.Таким образом, мой код выглядит так:

library(dplyr)
result <- df %>%
  group_by(ID) %>%
  summarize(Status = all(Status), Test = ifelse(all(Status) == TRUE,
 first(Price[Status == TRUE]), first(Price[Status == FALSE]))) 

# This is what I get: 
# A tibble: 3 x 3
     ID Status  Test
  <dbl> <lgl>  <dbl>
1    1. FALSE     0.
2    2. TRUE      0.
3    3. FALSE     7.

Но, как видите, для ID = 1 это дает неверную цену.Я пытался это вечно, поэтому я был бы признателен за любую подсказку о том, где я иду не так.

akrun · Answer 1 · 22 февраля 2019

Мы могли бы сохранить all(Status) в качестве второго аргумента в summarise (или изменить имя столбца), а также это можно сделать с помощью if/else, поскольку логика, похоже, возвращает одно ИСТИНА / ЛОЖЬ в зависимости от того, all из 'Status' равен TRUE или нет

df %>%
   group_by(ID) %>% 
   summarise( Test = if(all(Status)) first(Price[Status]) else 
                   first(Price[!Status]), Status = all(Status))
# A tibble: 3 x 3
#     ID  Test Status
#   <dbl> <dbl> <lgl> 
#1     1     5 FALSE 
#2     2     0 TRUE  
#3     3     7 FALSE

ПРИМЕЧАНИЕ. Лучше не использовать ifelse с неравной длиной в качестве аргументов

arg0naut91 · Answer 2 · 22 февраля 2019

Может сделать:

df %>%
  group_by(ID) %>%
  mutate(status = Status) %>%
  summarise(
    Status = all(Status),
    Test = ifelse(Status == TRUE,
                  first(Price),
                  first(Price[status == FALSE]))
  )

Вывод:

# A tibble: 3 x 3
     ID Status  Test
  <dbl> <lgl>  <dbl>
1     1 FALSE      5
2     2 TRUE       0
3     3 FALSE      7

Проблема в том, что вы хотите использовать Status для Test столбца, в то время как вы уже изменили его такчто он больше не содержит исходных значений.

Сделайте копию раньше (я сохранил ее в status), выполните ifelse на ней, и она будет работать нормально.

Использование dplyr суммировать с условиями

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование dplyr суммировать с условиями

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы