Моя функция дисперсии в C # не возвращает точное значение - PullRequest
1 голос
/ 23 июля 2010

Исходные данные:

    static double[] felix = new double[] { 0.003027523, 0.002012256, -0.001369238, -0.001737660, -0.001647287, 
        0.000275154, 0.002017238, 0.001372621, 0.000274148, -0.000913576, 0.001920263, 0.001186456, -0.000364631, 
        0.000638337, 0.000182266, -0.001275626, -0.000821093, 0.001186998, -0.000455996, -0.000547445, -0.000182582,
        -0.000547845, 0.001279006, 0.000456204, 0.000000000, -0.001550388, 0.001552795, 0.000729594, -0.000455664, 
        -0.002188184, 0.000639620, 0.000091316, 0.001552228, -0.001002826, 0.000182515, -0.000091241, -0.000821243,
        -0.002009132, 0.000000000, 0.000823572, 0.001920088, -0.001368863, 0.000000000, 0.002101800, 0.001094291, 
        0.001639643, 0.002637323, 0.000000000, -0.000172336, -0.000462665, -0.000136141 };

Функция дисперсии:

    public static double Variance(double[] x)
    {
        if (x.Length == 0)
            return 0;
        double sumX = 0;
        double sumXsquared = 0;
        double varianceX = 0;
        int dataLength = x.Length;


        for (int i = 0; i < dataLength; i++)
        {
            sumX += x[i];
            sumXsquared += x[i] * x[i];
        }

        varianceX = (sumXsquared / dataLength) - ((sumX / dataLength) * (sumX / dataLength));
        return varianceX;
    }

Excel и некоторые онлайн-калькуляторы говорят, что дисперсия составляет 1,56562E-06 В то время как моя функция дает мне 1.53492394804015E-06. Я начинаю сомневаться в том, что у C # есть проблема с точностью или что. У кого-нибудь была такая проблема?

Ответы [ 2 ]

12 голосов
/ 23 июля 2010

То, что вы видите, - это разница между выборочной дисперсией и дисперсией совокупности и не имеет ничего общего с точностью с плавающей запятой или точностью реализации C # с плавающей запятой.

Вы вычисляете дисперсию совокупности,Excel и этот веб-сайт рассчитывают выборочную дисперсию.

Var и VarP - это разные расчеты, и вам нужно быть осторожным с тем, какой из них вы используете.(к сожалению, люди часто называют их взаимозаменяемыми, когда их нет. То же самое относится и к стандартному отклонению)

Выборочная дисперсия для ваших данных - 1,56562E-06, дисперсия населения - 1,53492394804015E-06.

Из какого-то кода, размещенного в codeproject некоторое время назад:

Дисперсия в выборке

public static double Variance(this IEnumerable<double> source)
{
    double avg = source.Average();
    double d = source.Aggregate(0.0, (total, next) => total += Math.Pow(next - avg, 2));
    return d / (source.Count() - 1);
}

Дисперсия в популяции

public static double VarianceP(this IEnumerable<double> source)
{
    double avg = source.Average();
    double d = source.Aggregate(0.0, (total, next) => total += Math.Pow(next - avg, 2));
    return d / source.Count();
}
1 голос
/ 21 апреля 2011

Вот альтернативная реализация, которая иногда лучше ведет себя численно:

        mean = Average(data);
        double sum2 = 0.0, sumc = 0.0;


        for (int i = 0; i < data.Count; i++)
        {
           double dev = data[i] - mean;
           sum2 += dev * dev;
           sumc += dev;
        }

        return (sum2 - sumc * sumc / data.Count) / data.Count;
...