Последовательное хеширование включает следующий сценарий вероятности:
Выберите N случайных точек на окружности.Каждая точка представляет сервер, который отвечает за обработку объема данных, пропорциональных расстоянию между ее точкой и следующим сервером в круге.Затем в среднем каждый сервер отвечает за обработку 1 / N данных.
Но стандартное отклонение приведет к тому, что каждый сервер получит непропорционально большое количество данных (так как точки выбраны случайно ).Как мы можем смоделировать эту неравномерность?
Моя ссылка дает следующий ответ:
При 100 репликах («vnodes») на сервер стандартное отклонение нагрузки составляет около 10%.Доверительный интервал 99% для размеров сегментов составляет от 0,76 до 1,28 от средней нагрузки (т. Е. Общее количество ключей / количество серверов).Такая изменчивость усложняет планирование мощностей.
Конечно, это все хорошо, но какая математика дает эти результаты?