Для такого рода тестирования производительности нет такой вещи, как система, которая дала бы вам простой результат прохождения / сбоя. В реальной жизни изменение вашей системы может сделать некоторые вещи быстрее, а некоторые другие медленнее, поэтому обычно это не выбор между «лучше» и «не лучше», это выбор между различными видами лучше. (Конечно, вы хотите избежать случаев, когда это строго хуже.)
То, что я делал для этого в прошлом, - это просто вести статистику с течением времени. Каждый раз, когда вы запускаете свои тесты, опускайте результаты в базу данных SQL с номером ревизии и временем тестирования. Затем вы можете отобразить их в любое время и в любом удобном для вас месте (в идеале, в небольшом веб-апплете, чтобы каждый член команды мог их просмотреть), и посмотреть, будет ли ваша производительность повышаться или понижаться, или если производительность снизилась с определенной версии. 1003 *
Ключевым моментом здесь является то, что это должен быть график . Таким образом, человеческие глаза могут смотреть на это и находить тенденции. Вы можете потратить всю неделю, пытаясь придумать алгоритм ИИ для численного анализа данных, но он никогда не превзойдет способность человека распознавать шаблоны.