Вероятность относительно последовательного хеширования - PullRequest
0 голосов
/ 30 сентября 2018

Последовательное хеширование включает следующий сценарий вероятности:

Выберите N случайных точек на окружности.Каждая точка представляет сервер, который отвечает за обработку объема данных, пропорциональных расстоянию между ее точкой и следующим сервером в круге.Затем в среднем каждый сервер отвечает за обработку 1 / N данных.

Но стандартное отклонение приведет к тому, что каждый сервер получит непропорционально большое количество данных (так как точки выбраны случайно ).Как мы можем смоделировать эту неравномерность?

Моя ссылка дает следующий ответ:

При 100 репликах («vnodes») на сервер стандартное отклонение нагрузки составляет около 10%.Доверительный интервал 99% для размеров сегментов составляет от 0,76 до 1,28 от средней нагрузки (т. Е. Общее количество ключей / количество серверов).Такая изменчивость усложняет планирование мощностей.

Конечно, это все хорошо, но какая математика дает эти результаты?

...