Что подразумевает парадокс Симпсона в тестировании AB? - PullRequest
10 голосов
/ 29 января 2010

Я делаю A / B-тестирование и сталкиваюсь с парадоксом Симпсона в моих результатах (день против месяца против общей продолжительности теста).

  1. Означает ли это, что мои тесты a / b не верны / репрезентативны? (Какой-то внешний фактор повлиял на тестирование?)
  2. Если это признак проблемы, по каким направлениям нужно следовать?

Спасибо за вашу большую помощь.

Дальнейшее чтение: http://en.wikipedia.org/wiki/Simpson%27s_paradox

Ответы [ 3 ]

10 голосов
/ 29 января 2010

Сложно сказать, не видя точных данных и тестируемых измерений, но, вообще говоря, вы хотите принимать решения на основе несвязанных данных. Эта статья от Microsoft дает довольно четкий пример парадокса Симпсона в тестировании программного обеспечения.

Можете ли вы предоставить чистый пример ваших комбинированных и несложных данных и краткое резюме теста?

3 голосов
/ 30 января 2010

Если A явно, значительно лучше в отдельных тестах A / B, в то время как B в совокупности дает лучшие результаты, то главное значение состоит в том, что вы не можете агрегировать эти наборы данных таким образом . А лучше.

Если бы тестирование получало одни и те же результаты каждый день, вы бы не получили этого четкого результата, даже при разных размерах выборки в день. Поэтому я думаю, что это дополнительно подразумевает, что что-то изменилось . Впрочем, это может быть что угодно. Возможно, то, что вы тестировали каждый день, изменилось (возможно, каким-то очень тонким способом, например, скоростью сервера). Или, может быть, люди, на которых вы тестируете это, изменились (возможно, демографически, возможно, только с точки зрения их настроения). Это не значит, что ваше тестирование плохое или недействительное. Это просто означает, что вы измеряете то, что движется, и это усложняет задачу.

И, возможно, я неправильно просчитал или неправильно понял ситуацию, но я думаю также обязательно верно, что вы не проверяли A и B одинаковое количество раз . То есть, если в понедельник вы тестировали A 50 раз и B 50 раз, а во вторник вы тестировали A 600 раз, B 600 раз и т. Д., И A превосходили B каждый день, то я не вижу, как вы могли бы получить совокупный результат, где B превосходит A. Если это верно для вашей тестовой установки, это, безусловно, похоже на то, что вы могли бы исправить, чтобы облегчить рассуждение о ваших данных.

1 голос
/ 29 января 2010

Парадокс Симпсона возникает только тогда, когда размеры вашей группы разные. На самом деле, итоговые результаты - это средневзвешенное значение для результатов каждой группы (и при таком взвешивании может возникнуть парадокс).

Это на самом деле не вызвано внешними факторами или вещами. Это просто потому, что одна группа намного важнее (потому что в ней больше элементов).

Если вы предоставите больше информации, мы могли бы помочь лучше.

...