Средняя цена бриллиантов по Clarity ниже для бриллиантов с более высокой чистотой - PullRequest
0 голосов
/ 27 мая 2018

Я пытался понять, почему я получаю более низкую среднюю цену на бриллианты с более высокой чистотой?Разве бриллианты с более высокой чистотой не дороже?Может ли кто-нибудь объяснить мне это на уровне базовых данных?

Спасибо!

   by_clarity <- diamonds %>%
      group_by(clarity) %>%
      summarise(
        n = n(), 
        mean = mean(price), 
        lq = quantile(price, 0.25), 
        uq = quantile(price, 0.75)
      )
    by_clarity
    #> Source: local data frame [8 x 5]
    #> 
    #>    clarity     n  mean    lq    uq
    #>     (fctr) (int) (dbl) (dbl) (dbl)
    #> 1       I1   741  3924  2080  5161
    #> 2      SI2  9194  5063  2264  5777
    #> 3      SI1 13065  3996  1089  5250
    #> 4      VS2 12258  3925   900  6024
    #> 5      VS1  8171  3839   876  6023
    #> 6     VVS2  5066  3284   794  3638
    #> ..     ...   ...   ...   ...   ...
    ggplot(by_clarity, aes(clarity, mean)) + 
      geom_linerange(aes(ymin = lq, ymax = uq)) + 
      geom_line(aes(group = 1), colour = "grey50") +
      geom_point(aes(size = n))

Ответы [ 2 ]

0 голосов
/ 27 мая 2018

Еще один способ увидеть, что сказал пользователь @John Walker, - сгруппировать по clarity и carat.А затем нарисуйте результат.

by_clarity_carat <- diamonds %>%
      group_by(clarity, carat) %>%
      summarise(
        n = n(), 
        mean = mean(price),
        lq = quantile(price, 0.25), 
        uq = quantile(price, 0.75)
      )

ggplot(by_clarity_carat, aes(carat, mean)) + 
      geom_linerange(aes(ymin = lq, ymax = uq)) + 
      geom_line(aes(group = 1), colour = "grey50") +
      geom_point(aes(size = n)) + 
      facet_wrap(~ clarity)

enter image description here

Как видите, есть бриллианты меньшей чистоты и больше каратов, достигающие высоких цен, но хотя и естьнет крупных бриллиантов большей чистоты, эти бриллианты доходят не более чем до середины каратной шкалы, чем выше чистота, тем выше цены.

0 голосов
/ 27 мая 2018

Цена определяется более чем одним компонентом - включая ясность, но особенно вес в каратах.Один из способов просмотра данных:

dia<-diamonds

ggplot(data=dia, aes(x=carat, y=price, color=clarity, size=carat)) +
  geom_point()

enter image description here

Внизу слева мы видим алмазы с низкой чистотой и высокой чистотой по более низкой цене, чем средне-умеренныечистота бриллиантов большего размера.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...