Хорошей основой для такого рода расчетов является байесовский вывод. У вас есть предварительное распределение демографических данных - например, 50% мужчин, 37% бездетных и т. Д. Предпочтительно, вы будете иметь это многовариантно: 10% мужчин бездетных 0-17 кавказских ..., но вы можете начать с одного на одного -время.
После этого предварительного просмотра каждый сайт предоставляет новую информацию о вероятности демографической категории, и вы получаете последующую оценку, которая сообщает ваше окончательное предположение. Используя некоторые предположения о независимости, формула обновления выглядит следующим образом:
задние шансы = (предыдущие шансы) * (отношение правдоподобия сайта),
где odds = p / (1-p), а отношение правдоподобия является множителем, изменяющим шансы после посещения сайта. Существуют различные формулы для этого, но в этом случае я бы просто использовал вышеуказанную формулу для общего населения и населения сайта для его расчета.
Например, для сайта, который имеет 35% посетителей в возрастной группе "до 20 лет", что составляет 20% населения, отношение правдоподобия сайта будет
LR = (0,35 / 0,65) / (0,2 / 0,8) = 2,154
таким образом, посещение этого сайта увеличило бы вероятность того, что оно будет "меньше 20" в 2,154 раза.
У сайта, который на 100% мужской, будет бесконечный LR, но вы, вероятно, захотите ограничить его, скажем, используя только 99,9% мужчин. Сайт, на 50% состоящий из мужчин, будет иметь LR 1, поэтому он не будет предоставлять никакой информации о распределении по полу.
Предположим, вы начинаете ничего не знать о человеке - его или ее шансы быть «младше 20 лет» составляют 0,2 / 0,8 = 0,25. Предположим, что для первого сайта LR = 2,154 для этого результата - теперь вероятность того, что он будет "меньше 20", станет 0,25 * (2,154) = 0,538 (что соответствует вероятности 35%). Если второй сайт имеет тот же LR, задние шансы становятся 1,16, что уже составляет 54% и т. Д. (Вероятность = шансы / (1 + шансы)). В конце вы бы выбрали категорию с наибольшей апостериорной вероятностью.
Есть множество предостережений с этими расчетами - например, предположение о независимости, вероятно, ошибочно, но оно может обеспечить хорошее начало.