реализуя лучший метод через статистические оценки - PullRequest
1 голос
/ 27 октября 2011

У меня 7000 экземпляров данных.

У меня есть эти экземпляры, вручную оцененные человеком (ссылка).

У меня есть разные двигатели для автоматического определения оценки данных.

У меня есть лист Excel, в каждом столбце которого содержится оценка определенного двигателя и один столбец данных, набранных вручную.

Я хочу знать, какой из движков ближе к оценке человека, используя функции Excel, программирование, или просто дайте мне простую математику, и я разберусь с ней.

Оценка данных: от -3,0 до +3,0

Я использую C # для этого приложения и библиотеки .NET Excel COM для доступа к листу Excel.

-UPDATE-

С точки зрения статистики, как лучше всего описать ошибку, я имею в виду, что оценка человека, как правило, близка к нейтральной (0), но оценки Двигателей имеют тенденцию быть предвзятыми (выше 1,5 +/-). Я хочу быть в состоянии определить наилучшее уравнение для правильного описания и преувеличения ошибки.

Ответы [ 3 ]

4 голосов
/ 27 октября 2011

Я бы предложил использовать среднеквадратическую ошибку.Для каждого экземпляра данных рассчитайте квадрат разности для каждого двигателя.Это будет преувеличивать ошибку и давать положительные числа.Затем вы берете среднеквадратическую ошибку для каждого двигателя.Самым низким будет «самый близкий» оценщик для человека.

1 голос
/ 27 октября 2011

Евклидово расстояние между наборами данных должно быть достаточно хорошим, если каждая точка данных находится в одном и том же диапазоне. Для ясности экземпляры данных будут пронумерованы, а механизмы будут помечены буквами. Если оценка, указанная человеком в точке данных i, равна H_i, а оценка, заданная двигателем a, равна Ea_i, то возникает ошибка (как "не близко" данный двигатель) для двигателя a is:

ERROR(a) = (H_1 - Ea_1)^2 + (H_2 - Ea_2)^2 + … + (H_7000 - Ea_7000)^2

Ближайшим двигателем является двигатель, для которого ошибка наименьшая.

1 голос
/ 27 октября 2011

Обычно делается путем вычитания оценки двигателя из оценки человека, взятия абсолютного значения и суммирования всех 7000. Двигатель с наименьшей суммой - самый близкий.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...