Как вывести данные из фрейма с 3 столбцами в виде графика тепловой карты в R? - PullRequest
1 голос
/ 22 марта 2020

Я новичок в R и буду признателен за вашу помощь. У меня есть 3 столбца df, который выглядит так:

> head(data)
          V.hit    J.hit  frequency
1 IGHV1-62-3*00 IGHJ2*00 0.51937442
2   IGHV5-17*00 IGHJ3*00 0.18853542
3    IGHV3-5*00 IGHJ1*00 0.09777304
4    IGHV2-9*00 IGHJ3*00 0.03040866
5   IGHV5-12*00 IGHJ4*00 0.02900040
6   IGHV5-12*00 IGHJ2*00 0.00910554

Это только часть данных, например. Я хочу создать карту тепла, чтобы ось X была "V.hit", а ось Y - "J.hit", а значения тепловой карты будут частотой (меня интересует частота для каждая комбинация V + j). Я пытался использовать этот код для интерполяции:

library(akima)
newData <- with(data, interp(x = `V hit`, y = `J hit`, z = frequency))

, но я получаю эту ошибку:

Error in interp.old(x, y, z, xo, yo, ncp = 0, extrap = FALSE, duplicate = duplicate,  : 
  missing values and Infs not allowed

, поэтому я не знаю, как с этим справиться. Я хочу достичь этого окончательного результата:

> head(fld)
# A tibble: 6 x 5
  ...1        `IGHJ1*00` `IGHJ2*00` `IGHJ3*00` `IGHJ4*00`
  <chr>            <dbl>      <dbl>      <dbl>      <dbl>
1 IGHV10-1*00  0.00233     0.00192   NA          0.000512
2 IGHV1-14*00 NA          NA          0.00104   NA       
3 IGHV1-18*00 NA           0.000914  NA         NA       
4 IGHV1-18*00 NA          NA          0.000131  NA       
5 IGHV1-19*00  0.0000131  NA         NA         NA       
6 IGHV1-26*00 NA           0.000214  NA         NA       

, в то время как ячейки, которые являются "NA", будут назначены как "0". И тогда я предполагаю, что я смогу использовать функцию тепловой карты для создания графика тепловой карты. любая помощь будет очень признателен!

Ответы [ 2 ]

1 голос
/ 22 марта 2020

Вот идея использования geom_tile(). Ваши данные называются foo. Я создал все возможные комбинации V.hit и J.hit, используя complete(). Для пропущенных значений я попросил complete() использовать 0 для заполнения. Затем я использовал geom_tile () для создания следующего графика c. При необходимости вы можете рассмотреть порядок уровней.

library(tidyverse)

complete(foo, V.hit, nesting(J.hit), fill = list(frequency = 0)) %>% 
ggplot(aes(x = J.hit, y = V.hit, fill = frequency)) +
geom_tile()

enter image description here

0 голосов
/ 22 марта 2020

В базе R мы могли бы адаптировать @ GregSnow ' решение для матрицы корреляции к частотной тепловой карте.

Сначала мы cut вектор, скажем, в квартили (по умолчанию в quantile) и получить значения факторов.

dat$freq.fac <- cut(dat$frequency, quantile(dat$frequency, na.rm=TRUE), include.lowest=T)

Во-вторых, чтобы подготовить цвета, мы просто копируем столбец фактора и высвобождаем их с помощью встроенного heat.colors и белого цвета для нулевые значения.

dat <- within(dat, {
  freq.col <- freq.fac
  levels(freq.col) <- c(heat.colors(length(levels(dat$freq.fac)), rev=T), "#FFFFFF")
          })

В-третьих, примените белый цвет к NA с или нулевому значению соответственно.

dat$freq.col[is.na(dat$freq.col)] <- "#FFFFFF"
dat$frequency[is.na(dat$frequency)] <- 0

В-четвертых, примените xtabs и создайте цветовую матрицу и сопоставьте цвета и уровни после .

dat.x <- xtabs(frequency ~ v.hit + j.hit, dat)
col.m <- matrix(dat$freq.col[match(dat$frequency, as.vector(dat.x))], nrow=nrow(dat.x))

Наконец, график с использованием функции rasterImage.

op <- par(mar=c(.5, 4, 4, 3)+.1)  ## adapt outer margins
plot.new()
plot.window(xlim=c(0, 5), ylim=c(0, 5))
rasterImage(col.m, 0, 1, 5, 5, interpolate=FALSE)
rect(0, 1, 5, 5)  ## frame it with a box
## numbers in the cells
text(col(round(dat.x, 3)) - .5, 5.45 - row(round(dat.x, 3))*.8, round(dat.x, 3))
mtext("Frequency heatmap", 3, 2, font=2, cex=1.2)  ## title
mtext(rownames(dat.x), 2, at=5.45 -(1:5)*.8, las=2)  ## y-axis
mtext(colnames(dat.x), 3, at=(1:5)-.5)  ## y-axis (upper)
## a legend
legend(-.15, .75, legend=c("Frequency:\t", 0, paste("<", seq(.25, 1, .25))), horiz=TRUE, 
      pch=c(NA, rep(22, 5)), col=1, pt.bg=c(NA, levels(dat$freq.col)[c(5, 1:4)]), 
      bty="n", xpd=TRUE, cex=.75, text.font=2)
par(op)  ## reset margins

Выход

enter image description here


Данные по игрушкам:

dat <- structure(list(v.hit = structure(c(1L, 2L, 3L, 4L, 5L, 1L, 2L, 
        3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 
        4L, 5L), .Label = c("A", "B", "C", "D", "E"), class = "factor"), 
            j.hit = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 
            3L, 3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 5L, 5L, 5L, 5L, 5L
            ), .Label = c("F", "G", "H", "I", "J"), class = "factor"), 
            frequency = c(NA, NA, 0.717618508264422, NA, NA, 0.777445221319795, 
            NA, 0.212142521282658, 0.651673766085878, 0.125555095961317, 
            NA, 0.386114092543721, 0.0133903331588954, NA, 0.86969084572047, 
            0.34034899668768, 0.482080115471035, NA, 0.493541307048872, 
            0.186217601411045, 0.827373318606988, NA, 0.79423986072652, 
            0.107943625887856, NA)), row.names = c(NA, -25L), class = "data.frame")
...