Кеширование огромной таблицы данных с помощью knitr - PullRequest
0 голосов
/ 01 февраля 2020

Я пытаюсь кэшировать большой файл data.table, а затем составить из него график, код выглядит следующим образом:

{r gen-data, tidy=TRUE, warning=FALSE, tidy.opts=list(width.cutoff=60), cache = TRUE,  cache.lazy=FALSE}
DT = fread("reference.txt.gz", header = FALSE)
vc = c("chromosome_1", "chromosome_2", "chromosome_3", "chromosome_4", "chromosome_5", "chromosome_6")
colnames(DT) = c("chrom", "position", "score", "corrected base", "score of the corrected base")
DT=setDT(DT, key = "chrom")[J(vc), nomatch = 0]
{r, cache=TRUE, tidy=TRUE, warning=FALSE, tidy.opts=list(width.cutoff=60), dependson='gen-data'}
plot = ggplot(data = DT) + geom_line(aes(x = position, y = score, group = 1), stat = "summary_bin", fun.y = "mean", binwidth = 100000, color = ghibli_palette("MononokeMedium")[2])
ttle = paste0("coverage of the 6 longest scaffolds of Shasta + instagraal assembly")
plot = plot + labs(
  title = ttle) + theme(plot.title = element_markdown(lineheight = 1.5, size = 12), legend.text = element_markdown(size = 14))
plot = plot + theme(axis.title = element_markdown(size = 12)) + theme(axis.text.x = element_text(size=5)) + theme(axis.text.y = element_text(size=3))
plot = plot + theme(legend.title = element_markdown(size = 12)) 
p = plot + facet_wrap(~chrom, scales = "free_x") +xlab( "position") + ylab("mean score per 100 Kb windows")
v = ggplotly(p) %>% 
 layout( 
 xaxis = list(automargin=TRUE), 
 yaxis = list(automargin=TRUE)
 )
v

Итак, я подумал, что первый Чанк читает данные в data.table, затем применяет соответствующий выбор и, наконец, кеширует объект DT.

Однако первый фрагмент оценивается каждый раз, несмотря ни на что. Поэтому я, должно быть, делаю что-то не так, но не вижу, что.

Спасибо за любую помощь.

РЕДАКТИРОВАТЬ: добавив некоторые из них, вот пример reference.txt (да, это нормально, он имеет только 3 записи столбца, некоторые строки могут иметь до 5) .

chromosome_1    1   91      
chromosome_1    2   91      
chromosome_1    3   91      
chromosome_1    4   91      
chromosome_1    5   91      
chromosome_1    6   91      
chromosome_1    7   91      
chromosome_1    8   91      
chromosome_1    9   91      
chromosome_1    10  91
...