Как определить, является ли изменение данных временных рядов более несущественным? - PullRequest
4 голосов
/ 28 января 2012

У меня есть набор новостных статей, для которых есть статистика, например: количество постов в Твиттере, в которых упоминается статья за диапазон дней. Естественное поведение значений статистики заключается в том, что количество новых сообщений быстро растет, а затем уменьшается по мере старения новостей.

Я хотел бы знать, как рассчитать количество дней, после которых изменения в статистике больше не будут значительными (например, <0,1% от общего числа сообщений) для всего набора данных с некоторым уровнем достоверности. </p>

Не могли бы вы дать несколько советов, где искать информацию и методы? Буду признателен за пример кода на Python:)

1 Ответ

9 голосов
/ 02 февраля 2012

Этот вопрос действительно о анализе временных рядов . Поскольку вы заинтересованы в определении точки отсечения, для начала лучше всего почитать Контрольные диаграммы . Если вы хотите углубиться в статистику (за пределы контрольных диаграмм), посмотрите Анализ точек изменения , а также посмотрите Структурные изменения во временных рядах.

Модули Python : Для выполнения этого анализа в Python актуальны модули NumPy и pandas . Этот пост в statalgo поможет вам выбрать правильный путь с точки зрения кода Python. (Если вы готовы использовать R для анализа, рассмотрите пакеты CRAN tseries и strucchange .)

Важный вопрос в SE (статистика) : Как обнаружить изменение в данных временных рядов?

Соответствующий пример из реальной жизни : После смерти Усамы бен Ладена был проведен значительный анализ того, как эта новость распространялась в Твиттере. В статье даже есть раздел, конкретно связанный с вашим вопросом о стопе распространения новостей.

Наконец, вы можете также задать вопрос на сайте Stats SE .

Надеюсь, это поможет.

...