Для поиска актуальных тем я использую стандартную оценку в сочетании со скользящей средней:
z-score = ([current trend] - [average historic trends]) / [standard deviation of historic trends]
(Большое спасибо, Никсуз)
До сих пор я делаю это следующим образом:
Каким бы ни было время, для исторических тенденций я просто возвращаюсь 24 часа Предполагая, что у нас есть 12 января, 15:45 сейчас:
current_trend = хиты [11 января, 3:45 - 12 января, 3:45]
исторический_тренд = хиты [10 января, 3:45 - 11 января, 3:45] + хиты [9 января, 3:45 - 10 января, 3:45] + хиты [8 января, 3:45 - 9 января , 3:45] + ...
Но действительно ли это достаточно? Разве не было бы лучше, если бы я всегда начинал в 00:00? Например, для тех же данных (3:45 вечера):
current_trend = хиты [11 января, 0:00 - 12 января, 0:00]
history_trends = хиты [10 января, 0:00 - 11 января, 0:00] + хиты [9 января, 0:00 - 10 января, 0:00] + хиты [9 января, 0:00 - 9 января , 0: 0] + ...
Я уверен, что результаты будут другими. Но какой подход даст вам лучшие результаты?
Надеюсь, вы поняли мой вопрос и можете мне помочь. :) Заранее спасибо!