Что вам нужно сделать, это точно оценить вероятность того, что определенное имя пользователя присутствует, учитывая количество зарегистрированных пользователей. Допустим, N - это число пользователей, и u = 1, если пользователь u присутствует, и 0, если они отсутствуют.
Прежде всего, сделайте предположение, что распределения вероятностей для каждого имени пользователя не зависят друг от друга. Это не будет правдой - и у вас уже есть одна причина, почему - но это, вероятно, будет необходимо, так как это значительно упрощает сбор данных и математику.
Вам понадобится много данных с сайтов с зарегистрированными именами пользователей и общим количеством пользователей этого сайта. Теперь возьмите любое конкретное имя пользователя и представьте свои точки данных на двухмерном графике (с N на x и u на y), будет одна горизонтальная линия точек при y = 0, а другая - при y = 1. Вы можете либо связать ось x, как вы предлагаете, и взять среднюю координату y всех точек данных в ячейке, чтобы получить дискретную функцию, либо вы можете попытаться подогнать точки на графике к некоторому классу функций. Я действительно не знаю, что это за класс функций - может быть, какой-то степенной закон? (Я имею в виду закон Ципфа ).
Теперь у вас есть распределения вероятностей для применения правила Байеса. Я не знаю, какой вид априора для N вы бы хотели использовать. Равномерное распределение (до некоторого большого числа) не сделало бы никаких предположений, но я предполагаю, что большинство сайтов имеют небольшую базу пользователей.
Я подозреваю, что для того, чтобы сделать эту работу, когда вы выбираете пользователей с сайта, вам нужно будет сделать это для определенного набора пользователей. Я держу пари, что популярность имен пользователей будет иметь очень длинный хвост, и поэтому случайная выборка пользователей даст вам очень редко используемые имена и, следовательно, много неинформативных доказательств.
РЕДАКТИРОВАТЬ : У меня была другая мысль; на большинстве форумов (и в StackOverflow) пользователи имеют последовательные идентификаторы пользователей, поэтому вы можете использовать один сайт с большим количеством пользователей, чтобы получить оценки для всех меньших N.