Если A явно, значительно лучше в отдельных тестах A / B, в то время как B в совокупности дает лучшие результаты, то главное значение состоит в том, что вы не можете агрегировать эти наборы данных таким образом . А лучше.
Если бы тестирование получало одни и те же результаты каждый день, вы бы не получили этого четкого результата, даже при разных размерах выборки в день. Поэтому я думаю, что это дополнительно подразумевает, что что-то изменилось . Впрочем, это может быть что угодно. Возможно, то, что вы тестировали каждый день, изменилось (возможно, каким-то очень тонким способом, например, скоростью сервера). Или, может быть, люди, на которых вы тестируете это, изменились (возможно, демографически, возможно, только с точки зрения их настроения). Это не значит, что ваше тестирование плохое или недействительное. Это просто означает, что вы измеряете то, что движется, и это усложняет задачу.
И, возможно, я неправильно просчитал или неправильно понял ситуацию, но я думаю также обязательно верно, что вы не проверяли A и B одинаковое количество раз . То есть, если в понедельник вы тестировали A 50 раз и B 50 раз, а во вторник вы тестировали A 600 раз, B 600 раз и т. Д., И A превосходили B каждый день, то я не вижу, как вы могли бы получить совокупный результат, где B превосходит A. Если это верно для вашей тестовой установки, это, безусловно, похоже на то, что вы могли бы исправить, чтобы облегчить рассуждение о ваших данных.