подсчет количества дубликатов - альтернатива пакету plyr - PullRequest
0 голосов
/ 11 марта 2019

Мне интересно подсчитать количество дубликатов в моих данных, поэтому я могу оправдать использование тау Кендалла для расчета коэффициента корреляции между моими переменными. Следующая команда делает именно то, что я хочу:

ddply(df,.(a,b ),nrow) # plyr package

Однако проблема в пакете plyr. После установки я получаю сообщение об ошибке при запуске ggplot команд.

Это список пакетов, которые я установил в сеансе. Я попытался перезапустить сеанс, бесполезно.

packages(c("dplyr", "tidyr", "data.table", "ggplot2", "readxl", "magrittr", "tidyverse",
           "ggpubr", "forcats", "car", "PerformanceAnalytics", "mtcars", "Hmisc", "gplots",
           "nortest", "dunn.test", "psych", "FSA", "DescTools"))

Я предполагаю, что пакет plyr как-то мешает другим моим пакетам.

Как я могу решить эту проблему ?

или

Есть ли альтернативное решение для команды ddply?

Ответы [ 2 ]

1 голос
/ 11 марта 2019

Поскольку вы загрузили dplyr, вот метод dplyr, использующий mtcars в качестве примера:

dups <- mtcars %>%
      group_by(cyl) %>%
      summarize(n()) %>%
      print
1 голос
/ 11 марта 2019

Вот способ подсчета количества дубликатов с использованием базы R:

set.seed(111)
mydata <- sample(1:100, 100, 1)
(nDuplicates <- length(mydata) - length(unique(mydata)))

> (nDuplicates <- length(mydata) - length(unique(mydata)))
[1] 35
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...