Допустим, у меня есть три таблицы: patients
, samples
и mutations
:
patients
Таблица содержит уникальные строки, каждая из которых имеет уникальный patient_id
.
samples
таблица содержит уникальные строки, каждая из которых имеет уникальный sample_id
, но также patient_id
, который можно найти в таблице пациентов.В таблице сэмплов может быть несколько строк с одной и той же таблицей patient_id
.
mutations
, имеющей НЕ уникальные строки.Каждая строка в таблице мутаций содержит только два столбца: gene
и sample_id
.
Мне нужно создать новую таблицу, назовите ее summary
, с patient_id
впервый столбец sample_id, за которым следует столбец для каждого отдельного гена в таблице мутаций.
Каждая строка новой сводной таблицы должна содержать
-
patient_id
от пациентовтаблица, sample_id
из таблицы samples
, - a число
1
в каждом последующем столбце gene
для каждого gene
в таблице mutations
, котораяимеет sample_id
для конкретного patient
или число 0
, если нет.
Новая сводная таблица выглядит примерно так:
patient_id, sample_id, gene A, gene B, gene C, gene D, etc
12345678,54321,1,0,0,0
23456789,65432,0,1,1,0
34567890,76543,0,0,1,0
34567890,87654,0,1,0,1
etc
В новой сводной таблице должна быть запись: 0
или 1
для каждого отдельногоgene
найдено в таблице mutations
, даже если в таблице мутаций нет записей, у которых sample_id
принадлежит пациенту для определенной строки.
Помните, что может быть несколько образцов, принадлежащих одному и тому же пациенту, поэтому сводная таблица может содержать несколько строк для данного пациента - каждая строка для другого образца.
Спасибо за любые рекомендации -R является относительно новым для меня ...:)
Пример данных:
таблица пациентов:
PATIENT_ID, AGE, PARTC_CONSENTED_12_245, AGE_CURRENT, RACE, RELIGION, ETHNICITY, OS_STATUS, OS_MONTHS, PED_IND, SEX, RECURRENCE, POD_FIRST_LINE, SYSTEMIC_TREATMENT, TIME_TO_LAST_FOLLOWUP P-0000114,57, NO, 59, белый, CATHOLIC / ROMAN, неиспанский;не латиноамериканец, УЛУЧШЕНО, 15.16, Нет, Женский, 0, Да, самоцвет / вол + HAI FUDR, 15.16 P-0000127,62, NO, 64, Белый, НЕТ, Неиспанский;не латиноамериканец, УМЕНЬШЕН, 14,28, нет, мужской, 0, да, гем / цис, 14,28 P-0000147,40, NO, 45, черный, христианский, не испанский;неиспаноязычный, ЖИВЫЙ, 38.433, Нет, Женский, 0, Да, драгоценный камень, 38.45 P-0000154,76, НЕТ, 79, Белый, ЕВРЕЙСКИЙ, Неиспанский;неиспаноязычный, УМЕНЬШЕННЫЙ, 23.145, Нет, Мужской, 0, Да, гем / цис, 23.52 P-0000159,67, NO, 70, "Другие азиатские, в том числе азиатские, NOS и восточные, NOS", ХРИСТИАНСКИЙ, Неиспанский;неиспаноязычный, УМЕНЬШЕН, 18,773, Нет, Женский, 0, Да, драгоценный камень / цис, 18,78
Таблица образцов:
SAMPLE_ID, PATIENT_ID, HAS_MATCHED_NORMAL, TIME_TO_METASTASIS_MONTHS, SAMPLE_, SAMPLE_, SAMPLE_PRIMARY_SITE, ONCOTREE_CODE, GENE_PANEL, SO_COMMENTS, SAMPLE_COVERAGE, TUMOR_PURITY, MSI_COMMENT, MSI_SCORE, MSI_TYPE, ИНСТИТУТ, SOMATIC_STATUS, AGE_AT_SEQ_REPORT, Арчер, CVR_TMB_COHORT_PERCENTILE, CVR_TMB_SCORE, CVR_TMB_TT_COHORT_PERCENTILE, STAGE_4_DX Р-0000114-Т01-IM3, Р-0000114, Сопрягано, 0, МетастазированиеОпухоль, Лимфатический узел, Печень, IHCH, IMPACT341,, 938,60, Недоступно, 0,47, Стабильный, MSKCC, Подходящий, 58, НЕТ, 58,6,4,5,75,9, Да P-0000114-T02-IM3, P-0000114Соответствует, 0, Первичный, Опухоль, Неприменимо, Печень, IHCH, IMPACT341,, 409,60, Недоступно, 0,26, Стабильно, MSKCC, Соответствует, 59, Нет, 58.6,4.5,75.9, Да P-0000127-T01-IM3, P-0000127, совпало, 0, метастазирование, опухоль, лимфатический узел, печень, IHCH, IMPACT341,, 623,30, недоступно, 0, стабильно, MSKCC, совпало, 64, NO, 29.9,2.2,36,Да P-0000127-T02-IM3, P-0000127, Совпадение, 0, Метастазирование, Опухоль, Лимфатический узел, Печень, IHCH, IMPACT341, 255,0, Недоступно, 0, Стабильный, MSKCC, Совпадение, 64, НЕТ, 29.9,2.2,36, Да P-0000147-T01-IM3, P-0000147, Совпадение, 25, Первичный, Опухоль, НеПрименимо, Печень, IHCH, IMPACT341, 1051,80, MICROSATELLITE STABLE (MSS).См. Примечание MSI ниже., 0,17, Стабильный, MSKCC, Соответствует, 41, NO, 0,0,0, Нет P-0000154-T01-IM3, P-0000154, Соответствует, 0, Первичный, Опухоль, Не применимо, Печень,IHCH, IMPACT341, 767,70, Недоступно, 1,2, Стабильный, MSKCC, Совпадение, 78, НЕТ, 44,1,3,3,59,4, Да
таблица мутаций:
Hugo_Symbol, Tumor_Sample_Barcode BAP1, P-0009513-T01-IM5 PDGFRA, P-0000114-T01-IM5 BAP1, P-0009513-T01-IM5 KRAS, P-0000114-T02-IM3Cdkn1b, Р-0000192-Т02-IM3
IDH1, Р-0000327-Т01-IM3
ARID1A, Р-0000327-Т01-IM3
DOT1L, Р-0000327-Т01-IM3
NOTCH4, Р-0001539-Т01-IM3
ABL1, Р-0001539-Т01-IM3
SUFU, Р-0001539-Т01-IM3
PBRM1, Р-0000114-Т01-IM3
IDH1, Р-0002143-Т01-IM3
KRAS, Р-0002143-Т01-IM3
ARID1A, Р-0000114-Т01-IM3
MLL3, Р-0000127-Т01-IM3
ErbB3, Р-0000117-Т01-IM3
ARID1A, Р-0002211-Т01-IM3
ТР53, Р-0003407-Т01-IM5
ARID1A, Р-0000127-Т01-IM3
ErbB3, Р-000012707-Т01-IM5
STAG2, Р-0003407-Т01-IM5
KRAS, Р-0003473-Т01-IM5
PBRM1, Р-0003590-Т01-IM5
TET2, Р-0003590-Т01-IM5
IDH1, Р-0003795-Т01-IM5
ТР53, Р-0003795-Т01-IM5
SPEN, P-0003795-T01-IM5