Анимированная точечная гистограмма, построенная наблюдением за наблюдением (используя gganimate в R) - PullRequest
15 голосов
/ 26 апреля 2020

Я хотел бы выбрать точки из нормального распределения, а затем построить точечную диаграмму одну за другой, используя пакет gganimate, пока в последнем кадре не отобразится полная точечная диаграмма.

Решение, которое работает для больших наборы данных ~ 5000 - 20000 точек имеет важное значение.

Вот код, который у меня есть до сих пор:

library(gganimate)
library(tidyverse)

# Generate 100 normal data points, along an index for each sample 
samples <- rnorm(100)
index <- seq(1:length(samples))

# Put data into a data frame
df <- tibble(value=samples, index=index)

DF выглядит следующим образом:

> head(df)
# A tibble: 6 x 2
    value index
    <dbl> <int>
1  0.0818     1
2 -0.311      2
3 -0.966      3
4 -0.615      4
5  0.388      5
6 -1.66       6

Stati График c показывает правильный точечный график:

# Create static version
plot <- ggplot(data=df, mapping=aes(x=value))+
          geom_dotplot()

Однако версия gganimate этого не делает (см. Ниже). Он только ставит точки на оси X и не складывает их.

plot+
  transition_reveal(along=index)

Static plot

enter image description here

Нечто подобное было бы идеально: Кредит: https://gist.github.com/thomasp85/88d6e7883883315314f341d2207122a1 enter image description here

Ответы [ 3 ]

16 голосов
/ 29 апреля 2020

Другой вариант - нарисовать точки другим геом. сначала вам нужно будет сделать некоторые подсчеты для ваших данных (и для биннинга), но это не требует увеличения длины ваших данных.

Например, вы можете использовать geom_point, но задача состоит в том, чтобы получить Размеры ваших точек правильные, поэтому они касаются / не касаются. Это зависит от размера устройства / файла.

Но вы также можете просто использовать ggforce::geom_ellipse для рисования точек:)

geom_point (метод проб и ошибок с размерами устройства) )

library(tidyverse)
library(gganimate)

set.seed(42)
samples <- rnorm(100)
index <- seq(1:length(samples))
df <- tibble(value = samples, index = index)

bin_width <- 0.25

count_data <- # some minor data transformation
  df %>%
  mutate(x = plyr::round_any(value, bin_width)) %>%
  group_by(x) %>%
  mutate(y = seq_along(x))

plot <-
  ggplot(count_data, aes(group = index, x, y)) + # group by index is important
  geom_point(size = 5)

p_anim <- 
  plot +
  transition_reveal(index)

animate(p_anim, width = 550, height = 230, res = 96)

geom_ellipse (полный контроль размера точки)

library(ggforce)
plot2 <- 
  ggplot(count_data) +
  geom_ellipse(aes(group = index, x0 = x, y0 = y, a = bin_width/2, b = 0.5, angle = 0), fill = 'black') +
  coord_equal(bin_width) # to make the dots look nice and round

p_anim2 <- 
  plot2 +
  transition_reveal(index) 

animate(p_anim2) 

обновление по ссылке, которую вы предоставляете на удивительный пример Томаса, вы можете видеть, что он использует аналогичный подход - он использует geom_circle вместо geom_ellipse, который я выбрал из-за лучшего контроля как для вертикального, так и горизонтального радиуса.

Чтобы получить эффект «падающих капель», вам понадобится transition_states, большая длительность и много кадров в секунду.

p_anim2 <- 
  plot2 +
  transition_states(states = index, transition_length = 100, state_length = 1) +
  shadow_mark() +
  enter_fly(y_loc = 12) 

animate(p_anim2, fps = 40, duration = 20) 

Создано в 2020-04-29 пакетом Представить (v0.3.0)

некоторое вдохновение от: ggplot dotplot: Как правильно использовать geom_dotplot?

4 голосов
/ 29 апреля 2020

Я думаю, что ключом здесь является представить, как вы бы создали эту анимацию вручную, то есть вы добавили бы точки по одному наблюдению за раз к результирующему точечному графику. Учитывая это, подход, который я использовал здесь, заключался в создании ggplot объекта, который состоял из слоев графика = количество наблюдений, а затем пошагово проходил слой за слоем с помощью transition_layer.

# create the ggplot object
df <- data.frame(id=1:100, y=rnorm(100))

p <- ggplot(df, aes(y))

for (i in df$id) {
  p <- p + geom_dotplot(data=df[1:i,])
}

# animation
anim <- p + transition_layers(keep_layers = FALSE) +
    labs(title='Number of dots: {frame}')
animate(anim, end_pause = 20, nframes=120, fps=20)

* 1006. *enter image description here

Обратите внимание, что я установил keep_layers=FALSE, чтобы избежать переполнения. Если вы начертите начальный ggplot объект, вы поймете, что я имею в виду, поскольку первое наблюдение строится 100 раз, второе - 99 раз ... et c.

Как насчет масштабирования для увеличения наборы данных?

Так как количество кадров = количество наблюдений, вам необходимо настроить масштабируемость. Здесь просто оставьте # frames постоянным, то есть вы должны позволить коду сгруппировать кадры в сегменты, что я делаю с помощью функции seq(), задающей length.out=100. Обратите внимание также, что в новом примере набор данных содержит n=5000. Чтобы держать точечную диаграмму в рамке, вам нужно сделать размеры точек очень маленькими. Я, вероятно, сделал точки слишком маленькими, но вы поняли идею. Теперь # кадры = количество групп наблюдений.

df <- data.frame(id=1:5000, y=rnorm(5000))

p <- ggplot(df, aes(y))

for (i in seq(0,length(df$id), length.out=100)) {
  p <- p + geom_dotplot(data=df[1:i,], dotsize=0.08)
}

anim <- p + transition_layers(keep_layers=FALSE) +
  labs(title='Frame: {frame}')

animate(anim, end_pause=20, nframes=120, fps=20)

enter image description here

4 голосов
/ 27 апреля 2020

Попробуйте это. Основная идея c состоит в том, чтобы сгруппировать объекты obs в кадры, т.е. разделить по индексу, а затем накапливать выборки в кадры, т.е. в кадре 1 показаны только первые объекты obs, в кадрах 2 obs 1 и 2, .... Возможно, есть более элегантный способ добиться этого, но он работает:

library(ggplot2)
library(gganimate)
library(dplyr)
library(purrr)

set.seed(42)

# example data
samples <- rnorm(100)
index <- seq(1:length(samples))

# Put data into a data frame
df <- tibble(value=samples, index=index)

# inflated df. Group obs together into frames
df_ani <- df %>% 
  split(.$index) %>% 
  accumulate(~ bind_rows(.x, .y)) %>% 
  bind_rows(.id = "frame") %>% 
  mutate(frame = as.integer(frame))
head(df_ani)
#> # A tibble: 6 x 3
#>   frame  value index
#>   <int>  <dbl> <int>
#> 1     1  1.37      1
#> 2     2  1.37      1
#> 3     2 -0.565     2
#> 4     3  1.37      1
#> 5     3 -0.565     2
#> 6     3  0.363     3

p_gg <- ggplot(data=df, mapping=aes(x=value))+
  geom_dotplot()
p_gg
#> `stat_bindot()` using `bins = 30`. Pick better value with `binwidth`.

p_anim <- ggplot(data=df_ani, mapping=aes(x=value))+
  geom_dotplot()

anim <- p_anim + 
  transition_manual(frame) +
  ease_aes("linear") +
  enter_fade() +
  exit_fade()
anim
#> `stat_bindot()` using `bins = 30`. Pick better value with `binwidth`.

Создано в 2020-04-27 пакетом Представ (v0.3.0)

...