Таблица частот из нескольких списков - PullRequest
0 голосов
/ 12 апреля 2020

У меня есть фрейм данных, содержащий список генов из 60 различных экспериментов с высокой пропускной способностью. Это выглядит примерно так:

experiment 1            experiment 2             
APOE                        DAPK
PAK                         POA2
GALC                        APOE
JNK

И это продолжается 60 экспериментов, в общей сложности около 5000 генов.

Мне просто нужен список генов, которые чаще всего встречаются во всех этих списках и из каких наборов данных этот ген находится. Например, выходные данные могут выглядеть следующим образом ...

Gene    Frequency    Present_In
APOE        4        experiment 5, experiment 11, experiment 27, experiment 53
SNCA        3        experiment 2, experiment  43, experiment 48
MAPT        3        experiment 5, experiment 44, experiment 57
GAK         2        experiment 23, experiment 31

Я пытался сделать это в течение 5 часов!

Вот так выглядит моя среда

EDIT - я использую онлайн-инструмент, который делает то, что мне нужно. http://molbiotools.com/listcompare.html

Я копирую и вставляю каждый список генов на сайт, и он выплевывает то, что мне нужно. Но у меня около 70 списков генов, и мне нужен R, чтобы сделать это автоматически. В противном случае всякий раз, когда я добавляю новый список, мне нужно повторно скопировать и вставить все 70 списков генов 0.o

...