Может ли кто-нибудь посоветовать лучший способ сделать следующее?
У меня есть три переменные (X, Y & Z) и четыре группы (1, 2, 3 и 4). Я использовал анализ дискриминантной функции в SPSS для прогнозирования членства в группе известных сгруппированных данных для использования с будущими несгруппированными данными.
В идеале я хотел бы иметь возможность случайной выборки увеличивающегося числа подмножеств данных, чтобы увидеть, сколько наблюдений требуется для достижения желаемого правильного процента классификации.
Однако я понимаю, что это может быть сложно. Поэтому я хочу сделать это для средств.
Например, допустим, что переменная X имеет среднее значение 141 для группы 1. Это среднее значение могло быть вычислено из 2000 наблюдений. Тем не менее, это может быть случай, когда среднее произошло, скажем, при 700 наблюдениях. Я хотел бы иметь возможность рассчитать, при каком количестве наблюдений / случаев средние уровни в моих данных. Например, возможно, начиная с 10 наблюдений и повторяя это случайным образом, скажем 50 или 100 раз, затем увеличивая до 20 наблюдений .... и т. Д.
Я понимаю, что это форма тестирования Монте-Карло. У меня есть доступ к SPSS 15, 17 и 18 и Excel. У меня также есть доступ к minitab 15 и 16 и amos17, и я скачал «R», но я не знаком с ними. Мой опыт работы с SPSS и Excel. Я попробовал некоторый синтаксис в SPSS Modified из этого .. http://pages.infinit.net/rlevesqu/Syntax/RandomSampling/Select2CasesFromEachGroup.txt, но с моей стороны это все еще заняло бы много времени для ввода номера подмножества и т. Д.
Надеюсь, кто-нибудь может помочь.
Спасибо за чтение.
Andy