У меня есть папка с множеством файлов .csv, каждый из которых содержит список аннотированных вариантов последовательности. Я хотел бы построить гистограмму количества вариантов somati c в каждом файле - есть столбец Origin со значением «somati c» или «зародышевый путь».
Мне удалось для построения графика общего количества вариантов путем подсчета строк в каждом файле с помощью следующего кода:
combined_data <- list.files(pattern = ".csv")
numvar <- lapply(X = combined_data, FUN = function(x) {
length(count.fields(x, skip = 1))
})
var <- do.call(rbind,numvar)
varn <- c(as.numeric(var))
names <- c(1:41)
table <- data.frame(names, varn)
ggplot(data=table, aes(x=names, y=varn)) + geom_bar(stat="identity")
Хотя это сработало для создания гистограммы для общего количества вариантов в файле, я не уверен, где можно было бы добавить условие, определяющее подсчет только тех строк, которые удовлетворяют условию «somati c».
Любые советы будут очень признательны.