Вычислить статистическую значимость с помощью Excel - PullRequest
1 голос
/ 05 августа 2009

У меня есть 2 столбца и несколько строк данных в Excel. Каждый столбец представляет алгоритм, а значения в строках являются результатами этих алгоритмов с различными параметрами. Я хочу сделать статистическую значимость теста этих двух алгоритмов с Excel. Кто-нибудь может предложить функцию?

В результате было бы неплохо заявить что-то вроде «Алгоритм A работает на 8% лучше, чем Алгоритм B с вероятностью 0,9 (или 95% доверительный интервал)»

Статья в Википедии точно объясняет, что мне нужно: http://en.wikipedia.org/wiki/Statistical_significance

Это кажется очень легкой задачей, но мне не удалось найти научную функцию измерения.

Будем благодарны за любые советы относительно встроенной функции Excel или фрагментов функций.

Спасибо ..

Edit:

После комментариев Таркуна я понял, что должен уточнить некоторые моменты: Результаты являются просто действительными числами от 1 до 100 (они являются процентными значениями) Поскольку каждая строка представляет отдельный параметр, значения в строке представляют результат алгоритма для этого параметра. Результаты не зависят друг от друга. Когда я беру среднее из всех значений для Алгоритма A и Алгоритма B, я вижу, что среднее значение всех результатов, полученных Алгоритмом A, на 10% выше, чем у алгоритма B. Но я не знаю, является ли это статистически значимым или нет. Другими словами, может быть, для одного параметра Алгоритм A набрал на 100 процентов больше, чем Алгоритм B, а для остальных Алгоритм B имеет более высокие оценки, но только из-за этого результата разница в среднем составляет 10%. И я хочу сделать этот расчет, используя только Excel.

1 Ответ

3 голосов
/ 05 августа 2009

Спасибо за разъяснения. В этом случае вы хотите сделать независимый образец T-Test. Это означает, что вы хотите сравнить средние значения двух независимых наборов данных.

В Excel есть функция TTEST, вот что вам нужно.

Для вашего примера вам, вероятно, следует использовать два хвоста и ввести 2.

Формула выведет значение вероятности, известное как вероятность альфа-ошибки. Это ошибка, которую вы бы сделали, если бы предположили, что два набора данных различны, но это не так. Чем ниже вероятность альфа-ошибки, тем выше вероятность, что ваши сеты отличаются.

Вы должны принимать разницу двух наборов данных только в том случае, если значение ниже 0,01 (1%) или для критических результатов даже 0,001 или ниже. Вы также должны знать, что в t-тесте требуется как минимум около 30 значений для набора данных, чтобы быть достаточно надежными, и что тест типа 2 предполагает равные отклонения двух наборов данных. Если равные отклонения не приведены, вам следует использовать тест типа 3.

http://depts.alverno.edu/nsmt/stats.htm

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...