Сложно ответить, не зная, какие "готовые" продукты вы пытаетесь оценить.Вы ищете отзывчивость пользовательского интерфейса, пропускную способность (например, электронная почта, транзакции / сек), время запуска и т. Д. - все это имеет разные критерии для того, какие меры вы должны отслеживать, и разные инструменты для тестирования или оценки.Но чтобы ответить на некоторые ваши общие вопросы:
Достоверность - это важно.Постарайтесь убедиться, что все, что вы измеряете, не имеет большого значения для отклонения.Используйте технику выполнения нескольких прогонов по одному и тому же сценарию, избавьтесь от выбросов (т. Е. Вашего самого низкого и самого высокого) и оцените ваши значения avg / max / min / median.Если вы проводите какое-то тестирование пропускной способности, подумайте над тем, чтобы сделать его длительным, чтобы у вас был хороший набор образцов.Например, если вы смотрите на что-то вроде Microsoft Exchange и, таким образом, используете их счетчики производительности, постарайтесь удостовериться, что вы берете частые выборки (один раз в секунду или каждые несколько секунд) и проводите тестовый прогон в течение 20 минут или около того.Опять же, отрежьте первые несколько минут и последние несколько минут, чтобы устранить любой шум запуска / выключения.
Гейзенбург - хитро.В большинстве современных систем, в зависимости от того, какое приложение / меры вы измеряете, вы можете минимизировать это влияние, хорошо разбираясь в том, что / как вы измеряете.Иногда (как в примере с Exchange) вы можете увидеть воздействие, близкое к 0.Старайтесь использовать как можно менее инвазивные инструменты.Например, если вы измеряете время запуска, рассмотрите возможность использования xperfinfo и использования событий, встроенных в ядро.Если вы используете perfmon, не заполняйте систему посторонними счетчиками, которые вам не нужны.Если вы проводите какое-то чрезвычайно длительное испытание, увеличьте интервал выборки.
Также попытайтесь устранить любые источники изменчивости окружающей среды или возможные источники шума.Если вы делаете что-то интенсивное в сети, подумайте об изоляции сети.Попробуйте отключить любые службы или приложения, которые вас не интересуют.Ограничьте любой тип дискового ввода-вывода, операции с интенсивным использованием памяти и т. Д. Если дисковый ввод-вывод может создавать помехи в чем-то, что связано с процессором, рассмотрите возможность использования SSD.
При разработке тестов помните о повторяемости.Если вы выполняете какое-то тестирование типа микробенчмарка (например, тестирование модуля perf), тогда ваша инфраструктурная поддержка запускает одну и ту же операцию n раз точно так же.Если вы управляете пользовательским интерфейсом, старайтесь не управлять мышью физически, а вместо этого используйте базовый уровень доступности (MSAA, UIAutomation и т. Д.) Для непосредственного программного управления элементами управления.
Опять же, это всего лишь общий совет.Если у вас есть больше подробностей, я могу попытаться дать вам более подходящее руководство.
Наслаждайтесь!