В кадре данных Planes
есть много дубликатов, если мы посмотрим на столбцы manufactor
и model
Я написал этот код, чтобы увидеть, сколько у нас есть дубликатов
library(tidyverse)
library(nycflights13)
dupl<- planes %>%
group_by(manufacturer, model) %>%
summarise(duplicates=n())
Если один подсчитать все самолеты для каждого производителя, у какого-то производителя будет много самолетов, потому что у них есть дубликаты. Я хочу удалить дубликаты, чтобы у каждого производителя была только 1 каждая модель, и подсчитать все плоскости для каждого производителя (после удаления дубликатов)
Здесь я застрял. Итак, в основном, я хочу выяснить, сколько у многих фактур имеется более 50 плоскостей, как только мы очистим дубликаты
Я попытался сделать так, чтобы у каждого производителя была только 1 плоскость каждой модели, как эта (не уверен, что это правильный путь к go хотя)
duplRemove<- dupl%>%
group_by(manufacturer, model, duplicates) %>%
mutate(RemovDupl = duplicates-duplicates+1)
Теперь, как я могу посчитать RemoveDupl
для каждого производителя? Так, например, AIRBUS
должен показать 14 самолетов (из того, что я могу посчитать своими глазами)