Я работаю над анализом последовательности РНК, и меня интересует, какие гены определяют тканеспецифические c вариации в экспрессии генов. PCAs распространены в анализах РНК-seq, но большинство пакетов (например, DESeq2) используют его только до 2D-графика. Поэтому я использовал prcomp и fviz_pca_ind для создания своего 2D-графика, чтобы потом можно было продолжить анализ. Однако из-за структуры входных данных я не могу получить информацию о моей группировке (например, ткани) для включения в мой объект prcomp и, как результат, не могу закодировать свои образцы цветом или создать доверительные интервалы для моих групп.
Пакеты:
library(ggplot2)
library(factoextra)
library(Deseq2)
Я начинаю со стабилизированного по дисперсии преобразования объекта DESeq2 (извиняюсь за то, как долго это ...):
Даже в подмножествах, набор данных был слишком большим - вот ссылка (надеюсь, это приемлемо) https://drive.google.com/file/d/1Gtw5GUCAyBVr3MI6CpgsF4n81KZuq8WI/view?usp=sharing
И мой код PCA (по сути, это просто функция в DESeq2)
####################################################################################################
# Principle component analysis - PRComp
####################################################################################################
# set number of genes to include in PCA
ntop = 500
# calculate the variance for each gene
rv <- rowVars(assay(vst))
# select the ntop genes by variance
select <- order(rv, decreasing=TRUE)[seq_len(min(ntop, length(rv)))]
# perform a PCA on the data in assay(x) for the selected genes
tissue_pca <- prcomp(t(assay(vst)[select,]))
И мой код визуализации:
# Visualize samples on PC1 and PC2
fviz_pca_ind(tissue_pca,
# col.var = ,
palette = cbPalette,
ellipse.type = "confidence",
repel = TRUE,
mean = FALSE)
Производит это:
введите описание изображения здесь
Как вы увидите в объекте prcomp, информации о группировке нет. Есть идеи, как я могу 1) включить эту информацию в объект prcomp или 2) включить эту информацию в графический код? Fa