R Возьмите среднее значение повторяющихся строк в наборе данных, когда текст некоторых столбцов в - PullRequest
0 голосов
/ 31 января 2019

Привет. Я пытаюсь получить среднее значение дубликатов строк выборки внутри фрейма данных.Я могу вывести среднее значение для всех столбцов в двух строках, однако некоторые из моих столбцов содержат текст внутри - это приводит к большому количеству NA.Как я могу обойти это?

1 Ответ

0 голосов
/ 31 января 2019

Если строки действительно дублированы (как, например, все значения одинаковы), и при условии, что у вас есть переменная идентификатора, которая группирует эти дублированные строки, то вы можете просто взять первую строку для каждого идентификатора.

Примерно так может работать:

library(dplyr)
new_data <- duplicated_data %>%
  group_by(ID) %>%
  slice(1) %>%
  ungroup()

Где duplicated_data - ваш исходный набор данных, а ID - переменная идентификатора, которую вы используете, чтобы определить, дублирован ли образец или сейчас.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...