Я новичок в кодировании и пытаюсь использовать R, чтобы упростить управление мышами для исследовательской лаборатории, в которой я работаю.
Для использования mtcars в качестве примера.
Я хочу сгруппировать разные наблюдения в mtcars по новым переменным. Например, если я хотел сгруппировать автомобили по стране происхождения и производителя и году выпуска, стандартный размер шин.
Более конкретно, для моего примера, у меня есть группа мышей разных генотипов. Существуют разные схемы размножения для мышей, основанные на генотипе, генотипах c и других факторах, и я хочу сгруппировать их по этим различным факторам.
Проблема, которая у меня есть в настоящее время, заключается в том, что мыши, которые должны иметь одинаковые имена, иметь диапазон имен. Таким образом, мышь TSLP.KO, входит в варианты TSLP-KO, TSKP.KO.B6, TSLP; KO.B6 (N12F1) et c.
Давайте назовем это DF1
Mouse_ID Strain Sex Age_wk Genotype listgenobox DOB Cage_ID Litter_ID Mice_Room_ID
<fct> <fct> <fct> <dbl> <fct> <fct> <fct> <fct> <fct> <fct>
1 ZDM862 TSLP.KO M 6.7 "" "_/_ _/_ ~ 12/1~ H118599 B23235-2 SZ8
2 ZDM863 TSLP.KO.B6 M 6.7 "" "_/_ _/_ ~ 12/1~ H118599 B23235-2 SZ8
3 ZDM864 TSLP;KO M 6.7 "" "_/_ _/_ ~ 12/1~ H118600 B23235-2 SZ8
4 ZDM865 TSLP-KO M 6.7 "" "_/_ _/_ ~ 12/1~ H118600 B23235-2 SZ8
5 ZDM866 TSLP:KO M 6.7 "" "_/_ _/_ ~ 12/1~ H118600 B23235-2 SZ8
6 ZDM867 TSLPKO F 6.7 "" "_/_ _/_ ~ 12/1~ H118601 B23235-2 SZ8
Мой инстинкт был в том, чтобы создать файл Excel с различными вариациями имен (существует конечное число вариаций), а также с предпочтительными псевдонимами и схемой разведения. групп и объединить это с моим большим фреймом данных, который содержит идентификаторы мыши, штаммы, возраст, пол, генотип и т. д. c.
Позволяет назвать это DF2
Breeding_Group Preferred Name Alternate_Name Alternate_Name2 Alternate_Name3
<fct> <fct> <fct> <fct> <fct>
1 1a TSLP Knockout "TSLP.KO" "TSLP.KO.B6" ""
2 2a C57BL~ "C57BL/6" "" ""
3 1b CCR2.~ "CCR2.CreERT2" "CCR2-CreERT2-" ""
Результаты, которые я надеюсь for выглядит следующим образом:
Mouse_ID Strain Sex Age_wk Genotype listgenobox DOB Cage_ID Litter_ID Mice_Room_ID Breeding_Group Preferred Name
<fct> <fct> <fct> <dbl> <fct> <fct> <fct> <fct> <fct> <fct> <fct> <fct>
1 ZDM862 TSLP.KO M 6.7 "" "_/_ _/_ ~ 12/1~ H118599 B23235-2 SZ8 1a TSLP Knockout
2 ZDM863 TSLP.KO.B6 M 6.7 "" "_/_ _/_ ~ 12/1~ H118599 B23235-2 SZ8 1a TSLP Knockout
3 ZDM864 TSLP;KO M 6.7 "" "_/_ _/_ ~ 12/1~ H118600 B23235-2 SZ8 1a TSLP Knockout
4 ZDM865 TSLP-KO M 6.7 "" "_/_ _/_ ~ 12/1~ H118600 B23235-2 SZ8 1a TSLP Knockout
5 ZDM866 TSLP:KO M 6.7 "" "_/_ _/_ ~ 12/1~ H118600 B23235-2 SZ8 1a TSLP Knockout
6 ZDM867 TSLPKO F 6.7 "" "_/_ _/_ ~ 12/1~ H118601 B23235-2 SZ8 1a TSLP Knockout
TL / DR. Я хочу добавить две новые переменные (Preferred name & Breeding Group) в DF1, сопоставив имена штаммов с одной из переменных "alternate_names" в DF2.
Я пробовал разные комбинации merge () и rbind.fill () с небольшим успехом.
Надеюсь, эти таблицы читабельны. Извини, я не лучше, подставляю их ... пока.
Заранее спасибо, если вы застряли со мной до конца этого вопроса. Я ценю любые советы.