Отредактировано, чтобы убрать некоторые опечатки и решить проблему множественных значений K.
Я собираюсь предположить, что вы поместили все ваши файлы .csv в один каталог (и в этом каталоге больше ничего нет). Я также предполагаю, что каждый .csv действительно имеет одинаковую структуру (одинаковое количество столбцов в одинаковом порядке). Я бы начал с генерации списка имен файлов:
myCSVs <- list.files("path/to/directory")
Тогда я бы «перебрал» список имен файлов, используя lapply
, прочитав каждый файл во фрейм данных, используя read.csv
:
setwd("path/to/directory")
#This function just reads in the file and
# appends a column with the K val taken from the file
# name. You may need to tinker with the particulars here.
myFun <- function(fn){
tmp <- read.csv(fn)
tmp$K <- strsplit(fn,".",fixed = TRUE)[[1]][1]
tmp
}
dataList <- lapply(myCSVs, FUN = myFun,...)
В зависимости от структуры ваших .csv вам может потребоваться передать дополнительные аргументы read.csv
. Наконец, я бы объединил этот список фреймов данных в один фрейм данных:
myData <- do.call(rbind, dataList)
Тогда вы должны хранить все свои данные в одном фрейме данных, myData
, который вы можете передать ggplot
.
Что касается статистического аспекта вашего вопроса, то немного сложно высказать мнение без конкретных примеров ваших данных. Как только вы разберетесь в части программирования, вы можете задать отдельный вопрос, в котором приведены некоторые примеры данных (здесь или на stats.stackexchange.com), и люди смогут предложить некоторые методы визуализации или анализа, которые могут помочь. 1021 *