Как применить тесты к строкам в больших наборах данных? - PullRequest
0 голосов
/ 31 мая 2019

Я работаю с большими наборами данных> 40000 строк> = 200 столбцов.Я хочу получить значения AUC для всех генов в этом наборе данных и сохранить их (список в порядке, предпочтителен новый фрейм данных).

Я нашел много решений, которые используют пакет pROC для печати AUC, однако, похоже,Требовать, чтобы данные были организованы с генами в виде столбцов (рабочий код ниже).Я хочу применить функцию ROC по строкам, но не могу понять, где я иду не так.Я попытался транспонировать данные, используя t ()

Приведенный ниже код работает, если у меня было меньше строк, и данные транспонируются так, чтобы:

PATIENT_ID  Cancerbenign    GENE1   GENE2
GSM1817723      1            34      13
GSM1817724      0             8      12
GSM1817729      1             4       5
GSM1817742      0             5       7

AUC <- lapply(df[,c(2:200)], function(x) roc(df$cancerorbenign, x, plot=FALSE, print.auc=TRUE)$auc)

Однако я хочу сделать то же самое, нос данными в существующем формате:

GENE ID G   SM1817723   GSM1817724  GSM1817729  GSM1817742  
Cancerbenign 1              0           1           0
GENE1       34              8           4           5
GENE2        13             12          5           7

Я пробовал несколько решений, но не приблизился (или я бы привел примеры).Я уверен, что ответ очень прост, но я не могу Google удовлетворительное решение.

Я ожидаю, что объект списка с именем гена и значением AUC длины: nrow

Заранее спасибо,

Ben

...