Question

Что люди в сообществе Джулия считают наиболее достоверной статистикой для сравнений тестов производительности микро-эталонов?

Например, макрос BenchmarkTools @benchmark сообщает:

минимальное время
среднее время
среднее время
максимальное время

В течение многих лет я видел аргументы в пользу минимального времениНо мой опыт в статистике заставляет меня с осторожностью относиться к этой рекомендации.Конечно, я могу ошибаться, так как я из другой проблемной области.

Я нашел некоторые интересные рекомендации здесь .

Есть предложения?

РЕДАКТИРОВАТЬ

Это то, что я нашел до сих пор:

Надежной организацией для сравнительного анализа производительности программного обеспечения является SPEC :

Standard Performance Evaluation Corporation (SPEC) - это некоммерческая корпорация, созданная для установления, поддержки и одобрения стандартизированных эталонных тестов и инструментов для оценки производительности и энергоэффективности для новейшего поколения вычислительных систем.SPEC разрабатывает наборы тестов, а также рассматривает и публикует результаты, полученные от наших организаций-членов и других лицензиатов.

Участники SPEC явно влияют на вычислительную технику.Вот текущий список, не считая партнеров и т. Д.

Acer Inc. * Action SA * Усовершенствованные микроустройства * Amazon Web Services, Inc. * Apple Inc. * ARM * ASUSTek Computer Inc. *AuriStor Inc. * Avere Systems * Bull SAS * Cavium Inc. * Cisco Systems, Inc. * Dell, Inc. * Digital Ocean * Epsylon Sp.z oo Sp.Komandytowa * Формат Sp.z oo * Fujitsu * Gartner, Inc. * GIGABYTE Technology Co., Ltd. * Google Inc. * Guizhou Huaxintong Semiconductor Technology Co. Ltd * Hitachi Data Systems * Hitachi Ltd. * HP Inc. * Hewlett Packard Enterprise * Huawei Technologies Co.Ltd. * IBM * Inspur Corporation * Intel * iXsystems Inc. * Lenovo * Microsoft * NEC Corporation * NetApp * Новые технологии H3C Co., Ltd. * NVIDIA * Oracle * Принципиальные технологии * Чистое хранилище * Qualcomm Technologies Inc. * Quanta Computer Inc. * Red Hat * Samsung * SAP AG * Sugon * Super Micro Computer, Inc. * SUSE * Taobao (Китай) Software Co. Ltd. * Unisys * Veritas Technologies * VIA Technologies * VMware * WekaIO *

Они предоставляют «SPEC CPU2000 Run and Reporting Rules» здесь .

Вот соответствующая часть этого обсуждения (выделено жирным шрифтом):

ЦельВ этом документе указывается, как должны выполняться тесты в комплектах CPU2000 для измерения и публичного представления результатов производительности, чтобыубедитесь, что результаты, полученные с помощью комплектов, являются значимыми, сопоставимыми с другими сгенерированными результатами и воспроизводимы (с документацией, охватывающей факторы, относящиеся к воспроизведению результатов).

Согласно лицензионному соглашению SPEC, все результаты, опубликованные публично, должны соответствоватьПравила выполнения и отчетности SPEC или должны быть четко помечены как оценочные.

Ожидаются следующие основные принципы:

Соблюдение философии общих правил SPEC, включая
общая доступность всех компонентов в течение 3 месяцев после публикации.

, обеспечивающая подходящую среду для программ на C / C ++ / Fortran.

Использование инструментов SPEC для всех опубликованных результатов, в том числе:
компиляция эталонного теста с использованием инструментов SPEC.

требуется медиана не менее трех прогонов каждого эталонного теста для обеспечения стабильности и воспроизводимости .

Использование медианы является частью их процедуры,как видно из жирного текста выше.

Julia Micro-Benchmark Статистические Рекомендации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Julia Micro-Benchmark Статистические Рекомендации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы