Перевод балла в вероятности - PullRequest
4 голосов
/ 25 марта 2011

Люди посещают мой сайт, и у меня есть алгоритм, который дает оценку от 1 до 0. Чем выше оценка, тем больше вероятность, что этот человек что-то купит, но оценка не является вероятностью, и это можетне должно быть линейной зависимости с вероятностью покупки.

У меня есть куча данных о том, какие оценки я давал людям в прошлом, и действительно ли эти люди совершали покупки.

ИспользованиеЭти данные о том, что произошло с оценками в прошлом, я хочу иметь возможность взять оценку и перевести ее в соответствующую вероятность на основе этих прошлых данных.

Есть идеи?

edit : Несколько человек предлагают группирование, и я должен был упомянуть, что рассмотрел этот подход, но я уверен, что должен быть способ сделать это "гладко".Некоторое время назад я задал вопрос о другой, но, возможно, связанной проблеме здесь , у меня есть ощущение, что нечто подобное может быть применимо, но я не уверен.

edit2 : Допустим, я сказал вам, что из 100 клиентов с оценкой выше 0,5, 12 из них купили, и из 25 клиентов с оценкой ниже 0,5, 2 из них купили.Что я могу заключить, если что-нибудь, о предполагаемой вероятности покупки кого-то с оценкой 0,5?

Ответы [ 7 ]

4 голосов
/ 25 марта 2011

Нарисуйте график - нарисуйте соотношение покупателей и покупателей, не являющихся покупателями на оси Y, и баллов на оси X - установите кривую - тогда для заданного балла вы можете получить вероятность по высоте кривой.

(вам не нужно физически создавать диаграмму - но алгоритм должен быть очевиден из упражнения)

Simples.

1 голос
/ 27 ноября 2011

В конце концов я нашел именно то, что искал, алгоритм под названием «смежные по паре нарушители».Первоначально я нашел это в этой статье , однако следует помнить, что в их описании реализации есть изъян.

Я описываю алгоритм, этот недостаток и решение для него в моем блоге .

1 голос
/ 06 апреля 2011

Для этого и были изобретены логистическая регрессия , пробит-регрессия и компания. В настоящее время большинство людей используют логистическую регрессию, но подгонка включает в себя итеративные алгоритмы - конечно, существует множество реализаций, но вы, возможно, не захотите писать их самостоятельно. Пробит-регрессия имеет приблизительное явное решение, описанное по ссылке, которое может быть достаточно для ваших целей.

Возможным способом оценки того, будет ли логистическая регрессия работать для ваших данных, было бы посмотреть график каждой оценки в сравнении с логитом вероятности покупки (log (p / (1-p)), и посмотреть, они образуют прямую линию.

0 голосов
/ 25 марта 2011

На основании вашего комментария edit2 у вас не будет достаточно данных, чтобы сделать заявление. Ваш общий уровень покупок составляет 11,2%. Это статистически не отличается от ваших двух показателей покупок, которые выше / ниже .5 Кроме того, чтобы подтвердить свой счет, вам необходимо убедиться, что процент покупок монотонно увеличивается с увеличением вашего счета. Вы можете начать, но вам нужно будет сравнить свои результаты с калькулятором вероятности, чтобы убедиться, что они не произошли случайно.

http://stattrek.com/Tables/Binomial.aspx

0 голосов
/ 25 марта 2011

Вы можете использовать экспоненциальный спад для получения средневзвешенного значения.

Возьмите своих пользователей, расположите их в порядке очков (разрывайте связи случайным образом).

Работая слева направо, начните со среднего значения, равного 0. Для каждого полученного пользователя измените среднее значение на average = (1-p) * average + p * (sale ? 1 : 0). Сделайте то же самое справа налево, за исключением того, что начинайте с 1.

Чем меньше вы сделаете p, тем плавнее будет ваша кривая. Поиграйте с вашими данными, пока у вас не появится значение p, которое даст вам результаты, которые вам нравятся.

Кстати, это ключевая идея, определяющая, как средние значения нагрузки рассчитываются системами Unix.

0 голосов
/ 25 марта 2011

Вы можете разделить оценки на несколько сегментов, например, 0,0-0,1, 0,1-0,2, ... и подсчитать количество клиентов, которые купили и не купили что-то для каждого сегмента.

В качестве альтернативы, вы можете захотеть построить каждый счет по отношению к потраченной сумме (как диаграмма разброса) и посмотреть, есть ли какие-либо очевидные отношения.

0 голосов
/ 25 марта 2011

Что ж, простой способ сделать это - вычислить, какой процент людей в интервале оценки что-то приобрел, и сделать это для всех интервалов (скажем, каждые 0,05 балла).

Вы заметилифактическая корреляция между более высоким баллом и повышенной вероятностью покупок в ваших данных?

Я не специалист по статистике, и, возможно, будет лучший ответ.

...