Если у вас все в порядке с аппроксимациями, я думаю, что tom10 подходит для чего-то, но его понятие случайной подвыборки не является правильным или нуждается в уточнении. Если у меня есть посетитель, который приходит в день 1 и день 2, но отбирает выборку только в день 2, это приведет к систематической ошибке в оценке. Я хотел бы сохранить полную информацию для случайной выборки пользователей (скажем, всех пользователей, чей хэш (id)% 100 == 1). Затем вы делаете полные расчеты для выборочных данных и умножаетесь на 100. Да, tom10 сказал только об этом, но есть два различия: он сказал «например» выборка на основе идентификатора, и я говорю, что это единственный способ, который вы должны сделать, потому что Вы заинтересованы в уникальных посетителях. Если вас интересуют уникальные IP-адреса, уникальные почтовые индексы или что-то еще, что вы могли бы попробовать. Качество оценки можно оценить, используя нормальное приближение к биномиальному значению, если ваша выборка достаточно велика. Помимо этого, вы можете попробовать использовать модель лояльности пользователей, например, вы заметили, что более 2 дней 10% посетителей посещают оба дня, более трех дней 11% посетителей посещают дважды, а 5% посещают один раз и так далее до максимальное количество дней. Эти цифры, к сожалению, могут зависеть от времени недели, сезона и даже от их моделирования, со временем изменяется лояльность по мере взросления пользовательской базы, изменений в составе, а также в изменении сервиса, поэтому любая модель нуждается в переоценке. Я предполагаю, что в 99% практических ситуаций вам лучше использовать технику выборки.