Что люди в сообществе Джулия считают наиболее достоверной статистикой для сравнений тестов производительности микро-эталонов?
Например, макрос BenchmarkTools
@benchmark
сообщает:
- минимальное время
- среднее время
- среднее время
- максимальное время
В течение многих лет я видел аргументы в пользу минимального времениНо мой опыт в статистике заставляет меня с осторожностью относиться к этой рекомендации.Конечно, я могу ошибаться, так как я из другой проблемной области.
Я нашел некоторые интересные рекомендации здесь .
Есть предложения?
РЕДАКТИРОВАТЬ
Это то, что я нашел до сих пор:
Надежной организацией для сравнительного анализа производительности программного обеспечения является SPEC :
Standard Performance Evaluation Corporation (SPEC) - это некоммерческая корпорация, созданная для установления, поддержки и одобрения стандартизированных эталонных тестов и инструментов для оценки производительности и энергоэффективности для новейшего поколения вычислительных систем.SPEC разрабатывает наборы тестов, а также рассматривает и публикует результаты, полученные от наших организаций-членов и других лицензиатов.
Участники SPEC явно влияют на вычислительную технику.Вот текущий список, не считая партнеров и т. Д.
Acer Inc. * Action SA * Усовершенствованные микроустройства * Amazon Web Services, Inc. * Apple Inc. * ARM * ASUSTek Computer Inc. *AuriStor Inc. * Avere Systems * Bull SAS * Cavium Inc. * Cisco Systems, Inc. * Dell, Inc. * Digital Ocean * Epsylon Sp.z oo Sp.Komandytowa * Формат Sp.z oo * Fujitsu * Gartner, Inc. * GIGABYTE Technology Co., Ltd. * Google Inc. * Guizhou Huaxintong Semiconductor Technology Co. Ltd * Hitachi Data Systems * Hitachi Ltd. * HP Inc. * Hewlett Packard Enterprise * Huawei Technologies Co.Ltd. * IBM * Inspur Corporation * Intel * iXsystems Inc. * Lenovo * Microsoft * NEC Corporation * NetApp * Новые технологии H3C Co., Ltd. * NVIDIA * Oracle * Принципиальные технологии * Чистое хранилище * Qualcomm Technologies Inc. * Quanta Computer Inc. * Red Hat * Samsung * SAP AG * Sugon * Super Micro Computer, Inc. * SUSE * Taobao (Китай) Software Co. Ltd. * Unisys * Veritas Technologies * VIA Technologies * VMware * WekaIO *
Они предоставляют «SPEC CPU2000 Run and Reporting Rules» здесь .
Вот соответствующая часть этого обсуждения (выделено жирным шрифтом):
ЦельВ этом документе указывается, как должны выполняться тесты в комплектах CPU2000 для измерения и публичного представления результатов производительности, чтобыубедитесь, что результаты, полученные с помощью комплектов, являются значимыми, сопоставимыми с другими сгенерированными результатами и воспроизводимы (с документацией, охватывающей факторы, относящиеся к воспроизведению результатов).
Согласно лицензионному соглашению SPEC, все результаты, опубликованные публично, должны соответствоватьПравила выполнения и отчетности SPEC или должны быть четко помечены как оценочные.
Ожидаются следующие основные принципы:
- Соблюдение философии общих правил SPEC, включая
- общая доступность всех компонентов в течение 3 месяцев после публикации.
- , обеспечивающая подходящую среду для программ на C / C ++ / Fortran.
- Использование инструментов SPEC для всех опубликованных результатов, в том числе:
- компиляция эталонного теста с использованием инструментов SPEC.
- требуется медиана не менее трех прогонов каждого эталонного теста для обеспечения стабильности и воспроизводимости .
Использование медианы является частью их процедуры,как видно из жирного текста выше.