Question

У меня проблема с выяснением, как рассчитать среднее значение за "х" дней. Если я попытаюсь построить этот CSV-файл в течение 1 года, это будет слишком много данных для правильного отображения на графике (скриншот прилагается). Я рассчитываю усреднять данные за каждые несколько дней (возможно, 2, неделю и т. Д.), Поэтому линейный график не так сложно прочитать. Любой совет, как бы я решить эту проблему с R?

results.csv

POSTS,PROVIDER,TYPE,DATE
29337,FTP,BLOG,2010-01-01
26725,FTP,BLOG,2010-01-02
27480,FTP,BLOG,2010-01-03
31187,FTP,BLOG,2010-01-04
31488,FTP,BLOG,2010-01-05
32461,FTP,BLOG,2010-01-06
33675,FTP,BLOG,2010-01-07
38897,FTP,BLOG,2010-01-08
37122,FTP,BLOG,2010-01-09
41365,FTP,BLOG,2010-01-10
51760,FTP,BLOG,2010-01-11
50859,FTP,BLOG,2010-01-12
53765,FTP,BLOG,2010-01-13
56836,FTP,BLOG,2010-01-14
59698,FTP,BLOG,2010-01-15
52095,FTP,BLOG,2010-01-16
57154,FTP,BLOG,2010-01-17
80755,FTP,BLOG,2010-01-18
227464,FTP,BLOG,2010-01-19
394510,FTP,BLOG,2010-01-20
371303,FTP,BLOG,2010-01-21
370450,FTP,BLOG,2010-01-22
268703,FTP,BLOG,2010-01-23
267252,FTP,BLOG,2010-01-24
375712,FTP,BLOG,2010-01-25
381041,FTP,BLOG,2010-01-26
380948,FTP,BLOG,2010-01-27
373140,FTP,BLOG,2010-01-28
361874,FTP,BLOG,2010-01-29
265178,FTP,BLOG,2010-01-30
269929,FTP,BLOG,2010-01-31

R Script

library(ggplot2);
data <- read.csv("results.csv", header=T);
dts <- as.POSIXct(data$DATE, format="%Y-%m-%d");
attach(data);
a <- ggplot(dataframe, aes(dts,POSTS/1000, fill = TYPE)) + opts(title = "Report") + labs(x = NULL, y = "Posts (k)", fill = NULL);
b <- a + geom_bar(stat = "identity", position = "stack");
plot_theme <- theme_update(axis.text.x = theme_text(angle=90, hjust=1), panel.grid.major = theme_line(colour = "grey90"), panel.grid.minor = theme_blank(), panel.background = theme_blank(), axis.ticks = theme_blank(), legend.position = "none");
c <- b + facet_grid(TYPE ~ ., scale = "free_y");
d <- c + scale_x_datetime(major = "1 months", format = "%Y %b");
ggsave(filename="/root/results.png",height=14,width=14,dpi=600);

Графическое изображение

enter image description here

Joris Meys · Answer 1 · 24 февраля 2011

Попробуйте:

Average <- function(Data,n){
    # Make an index to be used for aggregating
    ID <- as.numeric(as.factor(Data$DATE))-1
    ID <- ID %/% n
    # aggregate over ID and TYPE for all numeric data.
    out <- aggregate(Data[sapply(Data,is.numeric)],
      by=list(ID,Data$TYPE),
      FUN=mean)
    # format output
    names(out)[1:2] <-c("dts","TYPE")
    # add the correct dates as the beginning of every period
    out$dts <- as.POSIXct(Data$DATE[(out$dts*n)+1])
    out
}

dataframe <- Average(Data,3)

Это работает с предоставленным вами сценарием построения.

Некоторые замечания:

никогда не вызывает какую-либо переменную после функцииname (data, c, ...)
избегайте использования attach().Если вы это сделаете, добавьте detach() впоследствии, или в какой-то момент у вас возникнут проблемы.Лучше использовать функции with() и within()

michaelv2 · Answer 2 · 30 мая 2011

В пакете TTR также есть несколько функций скользящего среднего, которые делают это с помощью одного оператора:

library(TTR)
mavg.3day <- SMA(data$POSTS, n=3)  # Simple moving average

Замените другое значение 'n' на желаемую длину скользящего среднего.

R Сценарий для усреднения значения за каждые <x>дней

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

R Сценарий для усреднения значения за каждые <x>дней

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов