Мера, чтобы найти лучшее распределение относительно фиксированной точки - PullRequest
0 голосов
/ 15 марта 2019

У меня есть два вектора с прогнозируемыми значениями на 10 человек.

A = [11 29 45 36 5 67 89 44 27 98]

B = [1 15 18 19 16 4546 24 25 21]

Фактическое значение равно C = 20

Очевидно, что распределение прогнозируемого значения в A хуже, чем B, по сравнению с фактическим значением, т.е. C. IЯ использовал несколько мер сходства и показал, что B больше похож на C или близок к нему. Но мне нужно знать, существует ли какая-либо формула вероятности или что-то, что изображает распределение набора значений (скажем, A или B) ссоблюдайте фиксированное значение (C) .. помните, что это фиксированное значение может существовать или не существовать в A или B.

Спасибо.

1 Ответ

0 голосов
/ 17 марта 2019

Вы можете рассмотреть возможность использования средней квадратичной потери в качестве меры:

L = (1 / n) & Sigma; (x i - & tau;) 2 ,

, где x i - это индивидуальные наблюдения от данной популяции (A или B), n - размер популяции, и & tau; это «целевое значение», в вашем случае C. Это наказывает наблюдения, которые находятся далеко от цели больше, чем те, которые находятся близко. Вычислите L для каждого вектора, и этот критерий с меньшими средними потерями будет лучше по этому критерию.

Приятной особенностью потери является то, что в ожидании она может быть разложена на

E [L] = (& mu; - & tau;) 2 + & sigma; 2 ,

, что означает, что оно может быть оценено как

(x-bar - & tau;) 2 + s 2 ,

, где x-bar - среднее по выборке, а s 2 - классическая оценка несмещенной дисперсии. Из этого вы можете видеть, что вектор с низкими потерями - это вектор, который последовательно (низкая дисперсия) и близко к цели. Отключение по одному или обоим этим критериям увеличит функцию потерь.

Этот подход также позволяет вам лечить & тау; в качестве параметра, так что вы можете сделать сравнение "что, если". Так как средняя и выборочная дисперсия вектора не меняются, оценивая различные & tau; Значения в формуле оценки требуют O (1) работы, а не O (n) работы. Тем не менее, обратите внимание, что это применяет нелинейное преобразование к оценочным значениям, и s 2 обычно вычисляется с (n-1) в качестве делителя, а не n, поэтому эта форма оценки может быть смещенной. Это дает численные результаты, которые согласуются, но немного отличаются от результатов прямого расчета. Тем не менее, это гораздо удобнее.

Если это вас беспокоит, использование оценщика MLE для дисперсии корректирует смещение из-за возведения в квадрат среднего значения по выборке. В результате получается непредвзятая оценка:

(x-bar - & tau;) 2 + (n-1) s 2 / n,

, если s 2 - обычно используемый объективный оценочный показатель.

Для ваших данных я вычисляю L (A) = (45,1 - 20) 2 + 9 * 960,77 / 10 = 1494,7, что намного больше, чем L (B) = (23,0 - 20) 2 + 9 * 184,44 / 10 = 175,0. Население B предпочтительнее, поскольку имеет меньшие потери по сравнению с целью 20. Если целью является 50, то потери A и B составляют 888,7 и 895,0 соответственно, и A будет (просто) предпочтительнее.

...