Как мне рассчитать эту статистику? - PullRequest
13 голосов
/ 05 августа 2008

Я пишу приложение, чтобы облегчить некоторые исследования, и часть этого включает некоторые статистические вычисления. Сейчас исследователи используют программу под названием SPSS . Часть вывода, о которой они заботятся, выглядит следующим образом:

[Part of the SPSS output

Их действительно интересуют только значения F и Sig.. Моя проблема в том, что у меня нет опыта в статистике, и я не могу понять, как называются тесты или как их вычислять.

Я думал, что значение F может быть результатом F-теста , но после выполнения шагов, указанных в Википедии, я получил результат, который отличается от того, что дает SPSS.

Ответы [ 6 ]

3 голосов
/ 22 сентября 2008

Из вашего вопроса я предполагаю, что ваши коллеги-исследователи хотят автоматизировать процесс, с помощью которого выполняются определенные статистические анализы (т. Е. Они хотят группировать наборы данных процесса). У вас есть два варианта:

1) SPSS теперь можно писать через python (начиная с версии 15) - перейдите на spss.com и найдите python. Вы можете написать сценарии Python для автоматизации анализа данных и извлечения ключевых значений из сводных таблиц, а затем обрабатывать ответы любым удобным для вас способом. Это дает возможность точного сравнения результатов вашего скрипта на python и вычисленных вручную усилий в SPSS ваших соавторов. Таким образом, вам не нужно знать статистику, чтобы выполнять эту работу (что является ключевым преимуществом)

2) Вы можете сделать это в R, свободной статистической среде, которая, вероятно, может быть написана на скрипте. Это имеет тот недостаток, что вам придется изучать статистику, чтобы убедиться, что вы делаете это правильно.

3 голосов
/ 05 августа 2008

Этот сайт может помочь вам немного больше. Также этот .

Я работаю из довольно ржавой памяти курса статистики, но здесь ничего не говорится:

Когда вы выполняете дисперсионный анализ (ANOVA), вы фактически рассчитываете F-статистику как отношение среднеквадратичных отклонений «между группами» и среднеквадратичных отклонений «внутри групп». Вторая ссылка выше кажется довольно хорошей для этого расчета.

Это делает статистику F точным показателем того, насколько мощна ваша модель, потому что дисперсия «между группами» - это объяснительная сила, а дисперсия «внутри групп» - случайная ошибка. Высокий F подразумевает очень значимую модель.

Как и во многих статистических операциях, вы определяете Sig. используя статистику F. Вот где ваша информация из Википедии немного полезна. То, что вы хотите сделать, - используя степени свободы, предоставленные вам SPSS, - найти правильное значение P, при котором таблица F даст вам F-статистику, которую вы рассчитали. Значение P, в котором это происходит [F (таблица) = F (рассчитано)], является значимым.

Концептуально, более низкое значение значимости показывает очень сильную способность отвергнуть нулевую гипотезу (что для этих целей означает, что ваша модель имеет объяснительную силу).

Извините всех математиков, если что-то из этого не так. Я вернусь, чтобы внести изменения !!!

Удачи тебе. Статистика это весело, просто, может быть, не эта часть. =)

2 голосов
/ 17 сентября 2008

Короче говоря: не делайте этого вручную, связывайте / используйте существующее программное обеспечение. И ответ sain_grocen неверен. (

Это все тесты на значимость оценок параметров, которые обычно используются в многовариантных ответах множественных регрессий. Это было бы непросто сделать за пределами среды статистического программирования. Я бы предложил либо получить результаты из уже существующей статистической программы, либо использовать ту, на которую вы можете ссылаться, и использовать этот код.

Боюсь, что первый ответ (sain_grocen's) приведет вас по неверному пути. Его объяснение, вероятно, является частным случаем того, с чем вы на самом деле имеете дело. Анова, объясненная в его ссылках, предназначена для одного варианта ответа, в сбалансированном дизайне. Это не статистика F, которую вы видите. Имена в вашем выводе (Trace Pillai, Trace Hotelling, ...) являются одними из доступных многовариантных версий. Они имеют F-распределения при определенных допущениях. Я не могу объяснить ценность учебников здесь, я бы посоветовал вам начать с рассмотрения «Прикладной многомерный статистический анализ» Джонсона и Вихерна

2 голосов
/ 18 августа 2008

Статистика сложная :-). После года чтения и перечитывания книг и статей я могу только с уверенностью сказать, что понимаю все основы этого.

Возможно, вы захотите исследовать готовые библиотеки для любого языка программирования, который вы используете, потому что их много в математике в целом и статистике в частности (ошибки округления являются очевидным примером).

В качестве примера вы можете взглянуть на проект R , который является одновременно интерактивной средой и библиотекой, которую вы можете использовать из своего кода C ++, распространяемого по лицензии GPL (т.е. если вы используете это только внутренне и публикует только результаты, вам не нужно открывать свой код).

0 голосов
/ 22 декабря 2009

Вот объяснение выходных данных MANOVA с очень хорошего сайта по статистике и по SPSS:

Вывод с объяснением: http://faculty.chass.ncsu.edu/garson/PA765/manospss.htm

Как и зачем делать MANOVA или многовариантный GLM: (тот же путь, что и выше, но заканчивается в '/manova.htm')

Написание программного обеспечения с нуля для расчета этих результатов будет длительным и сложным; есть много числовых задач и матричных инверсий.

Как сказал Генри, используйте скрипты Python или R. Я бы посоветовал поработать с кем-то, кто знает SPSS, если это скрипты. Кроме того, сама SPSS способна экспортировать выходные таблицы в файлы, используя нечто, называемое OMS. Сценарий в SPSS может сделать это.

Узнайте, кто из вашей исследовательской группы знает SPSS, и поработайте с ними.

0 голосов
/ 17 сентября 2008

Можете ли вы объяснить, почему SPSS сам по себе не является хорошим решением проблемы? Это то, что он генерирует сводные таблицы в качестве выходных данных, которыми трудно манипулировать? Это стоимость программы?

F-статистика может возникнуть из любого количества конкретных тестов. F - это просто распределение (в общих чертах: описание «частот» групп значений), например, Normal (Gaussian) или Uniform. В целом они возникают из соотношений отклонений. Мнение: многие статистики (включая меня) считают тесты на основе F нестабильными (жаргон: не- надежный ).

Конкретная выходная статистика (след Пиллая и т. Д.) Предполагает, что исходный анализ является примером MANOVA, который, как описывают другие авторы, является сложной и трудной для получения правильной процедуры.

Полагаю также, что, основываясь на MANOVA и использовании SPSS, это проект по психологии или социологии ... если нет, пожалуйста, просветите. Возможно, другие, более простые модели могут быть проще для понимания и более повторяемыми. Обратитесь в местную университетскую статистическую консультационную группу, если она у вас есть.

Удачи!

...