У меня есть данные по экспрессии генов в семенах. Я пытаюсь вычислить количество генов, которые были высоко выражены в семенных образцах. Я хочу сообщить о количестве генов, которые превышают 50. Любой совет поможет. А вот и мой код:
##### Read gene annotations ######
annotations=read.delim("gene_description.txt",
as.is=TRUE,quote="",
sep="\t")
##### Read counts per gene ######
# each sample group has three replicates
#sample names look like:
# GroupName.Number
# For example:
#YLf.1, YLf.2, YLf.3 for YLf (young leaf)
counts_filename='counts.txt'
counts=read.delim(counts_filename,as.is=TRUE,
sep='\t',row.names="gene")
# read sample information
# each row is a sample
sample_info=read.delim("samples.txt",as.is=TRUE,sep="\t",
header=TRUE,comment.char = '#',
row.names = "sample_name")
# check that sample_info row names match
# counts column names
row.names(sample_info)==names(counts)
#https://bioconductor.org/packages/release/bioc/html/edgeR.html
# load EdgeR library
library(edgeR)
# make a Differential Gene Expression list - contains
# counts matrix and samples data frame with metadata
# about the experiment
sample_groups=sample_info$group
big_DGEList=DGEList(counts=counts,group=sample_groups,
remove.zeros = TRUE)
##### Exploratory Data Analysis ######
##### Compute normalized expression pers sample ######
fpm=cpm(counts)