Отдельные значения переменной в качестве заголовков столбцов для неравных наблюдений - PullRequest
0 голосов
/ 16 сентября 2018

У меня возникли проблемы с манипулированием данными с помощью значений столбца - «имя файла».

Код и данные настроены в соответствии с нижеприведенным описанием, где я импортировал три переменные, соответствующие каждому образцу.(имя файла) для нескольких файлов CSV, и объединил это в один фрейм данных.

setwd("C:/Users/raiss/Desktop/COAST/Picoeukaryotes")
read.delim(file = "filename", header=T)

raw <- list.files(pattern = "*.csv")
myfiles <- lapply(raw, read.delim)
rawdf <- data.table::rbindlist(myfiles)

read_plus <- function(flnm) {
    read.csv(flnm) %>%
    mutate(filename = flnm)
}

rawtbl <- list.files(pattern = "*.csv", 
          full.names = T) %>% map_df(~read_plus(.))

head(rawtbl, n = 10)

       FSC.PAR SSC X692_40..488.....Red..chlorophyll.                                                    filename
1      835 412                                702 ./CIN2017_v0420170914CTD#30_1000m_300sec_Picoeukaryotes.csv
2      609 362                                991        ./CIN2017_v0420170914CTD#30_1000m_Picoeukaryotes.csv
3      549 199                                901        ./CIN2017_v0420170914CTD#30_1000m_Picoeukaryotes.csv
4      573 187                                770         ./CIN2017_v0420170914CTD#30_100m_Picoeukaryotes.csv
5      655 203                                796         ./CIN2017_v0420170914CTD#30_100m_Picoeukaryotes.csv
6      543 139                                712         ./CIN2017_v0420170914CTD#30_100m_Picoeukaryotes.csv
7      406 111                                631         ./CIN2017_v0420170914CTD#30_100m_Picoeukaryotes.csv
8      674 265                                789         ./CIN2017_v0420170914CTD#30_100m_Picoeukaryotes.csv
9      417  71                                626         ./CIN2017_v0420170914CTD#30_100m_Picoeukaryotes.csv
10     532 219                                713         ./CIN2017_v0420170914CTD#30_100m_Picoeukaryotes.csv

Я пытаюсь установить 3 фрейма данных, где столбцы соответствуют имени файла (разные выборки), а строки содержат наблюдениякакой-то переменной.Я думал о том, чтобы просто сделать это вручную, однако у меня есть 30 уровней имени файла и 22804 строки наблюдений ... Итак, в качестве конечного результата я представляю:

  1. df1 = FSC.PAR(значения строки) против имени файла (30 столбцов)
  2. df2 = SSC (значения строки) против имени файла (30 столбцов)
  3. df3 = Хлорофилл (значения строки) против имени файла (30 столбцов)

Проблема, с которой я сталкиваюсь, заключается в том, что многие методы, которые я исследовал, либо объединяют данные в некоторую статистику (мне нужны необработанные значения), требуют дополнительную переменную для разделения значений имени файла, либо нене знаю, как бороться с неравными наблюдениями между именами файлов.

Любая помощь очень ценится!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...