У меня есть таблица в Excel, где есть уникальные столбцы, но много повторяющихся строк.Дубликаты измеряются по столбцу «uniqueID», который является электронным письмом, хранящимся в виде строки.Строки могут иметь одинаковый уникальный идентификатор, но с отсутствующими данными в других столбцах или с другими данными в одном столбце.
Я хочу иметь возможность объединять и объединять эти повторяющиеся строки, если один и тот же uniqueID имеет одинаковый ответ, поскольку строки будут объединены и объединены так, что данные не будут потеряны.Все данные являются строками.
Я пробовал функцию Aggregate в R и dplyr, но безуспешно, в основном потому, что я до сих пор не уверен в том, как работают эти две функции.
Ввод:
uniqueID, favFruits, favVeggie, State, favColor
john@mail.com, NULL, carrots, CA, Green
jill@mail.com, apples, NULL, FL, NULL
john@mail.com, grapes, beets, CA, Red
jill@mail.com, cherries, beans, FL, Blue
jill@mail.com, pineapple, beans, FL, Blue
john@mail.com, grapes, beets, CA, Yellow
Выход:
uniqueID, favFruits, favVeggie, State, favColor
john@mail.com, grapes, (carrots, beets), CA, (Green, Red, Yellow)
jill@mail.com, (apples, cherries, pineapple), beans, FL, Blue
Примечание:
«NULL» в этом смысле - просто пустая ячейка Excel.Он не называется NULL или что-то еще.Полный набор данных содержит ~ 30 столбцов и ~ 20000 строк.«()» В каждом столбце означает одну ячейку, содержащую оба значения, а не круглую скобку внутри ячейки.