У меня есть фрейм данных, содержащий список генов из 60 различных экспериментов с высокой пропускной способностью. Это выглядит примерно так:
experiment 1 experiment 2
APOE DAPK
PAK POA2
GALC APOE
JNK
И это продолжается 60 экспериментов, в общей сложности около 5000 генов.
Мне просто нужен список генов, которые чаще всего встречаются во всех этих списках и из каких наборов данных этот ген находится. Например, выходные данные могут выглядеть следующим образом ...
Gene Frequency Present_In
APOE 4 experiment 5, experiment 11, experiment 27, experiment 53
SNCA 3 experiment 2, experiment 43, experiment 48
MAPT 3 experiment 5, experiment 44, experiment 57
GAK 2 experiment 23, experiment 31
Я пытался сделать это в течение 5 часов!
Вот так выглядит моя среда
EDIT - я использую онлайн-инструмент, который делает то, что мне нужно. http://molbiotools.com/listcompare.html
Я копирую и вставляю каждый список генов на сайт, и он выплевывает то, что мне нужно. Но у меня около 70 списков генов, и мне нужен R, чтобы сделать это автоматически. В противном случае всякий раз, когда я добавляю новый список, мне нужно повторно скопировать и вставить все 70 списков генов 0.o