Чем больше потоков данных, тем оценочные параметры стандартизации (например, среднее и стандартное) обновляются и далее сходятся к истинным значениям [ 1 , 2 , 3 ] . В развивающихся средах это еще более ярко выражено, поскольку распределение данных теперь также меняется во времени [ 4 ]. Следовательно, более поздние потоковые выборки, которые были стандартизированы с использованием более поздних оцененных параметров стандартизации, являются более точными и репрезентативными.
Решение состоит в том, чтобы объединить настоящее с частичным отражением прошлого путем встраивания нового параметра затухания. в правиле обновления вашего алгоритма кластеризации. Это повышает вклад более свежих выборок, которые были стандартизированы с использованием более поздних оценок распределения. Вы можете увидеть реализацию этой идеи в Apache Sparks MLib [ 5 , 6 , 7 ]:
где α - новый параметр затухания; чем ниже значение α, тем больше алгоритм предпочитает более свежие выборки.