Рассчитать общее расстояние между несколькими попарными распределениями / гистограммами - PullRequest
0 голосов
/ 22 апреля 2019

Я не уверен в терминологии, которую я должен использовать для своей задачи, поэтому приведу пример.

У меня есть 2 набора измерений (6 эмпирических распределений на набор = D1-6), которые описывают 2разные состояния одной и той же системы (синий и красный).Эти распределения могут быть мультимодальными, искаженными, недискретизированными и странными для некоторых других непредсказуемых способов.

СИНИЙ - моя ссылка, и Я хочу сделать КРАСНОЕ распределение как можно ближе к СИНЕМУ для всех парных распределений. Для этого я поиграю с параметрами своей КРАСНОЙ системы и буду следить за КРАСНЫМ набором измерений D1-6, стараясь, чтобы он идеально перекрывал СИНИЙ.

Я знаю, что могу использовать Дженсен-Шеннон или Бхаттачарьюрасстояния для оценки расстояния между двумя распределениями (например, RED-D1 и BLUE-D1).Тем не менее, Я не знаю, существуют ли другие метрики, которые можно было бы применить здесь, чтобы получить глобальное расстояние между всеми распределениями (т.е. количественно определить глобальное несоответствие между 2 наборами попарных распределений).Это тот случай?

Я думаю о построении эмпирической функции оценки, которая бы использовала все попарные расстояния Дженсена-Шеннона, но у меня пока нет идей получше.Я считаю, что я НЕ могу просто суммировать все расстояния JS, потому что я получил бы одинаковые оценки в этих 2 гипотетических, различных случаях:

  1. D1-6 распределены, как на моем изображении

  2. RED-D1-5 намного лучше подходят для BLUE-D1-5, НО RED-D6 смещен по сравнению с BLUE-D6

И это было бы неправильно, потому что я бы упустил одну важную особенность моей системы.Учитывая эти 2 случая, лучше распределить D1-6, как на моем изображении (решение 1).

Попарное совпадение между каждым распределением одинаково важно и должно быть одинаково взвешено (то есть совпадение между СИНИМ-D1 и RED-D1 так же важны, как и совпадение между BLUE-D2 и RED-D2 и т. Д.).

D1-3 имеет заданный диапазон DOM1, равный [0, 5], а D4-6 имеет другой диапазон.DOM2 из [50, 800].Бриллианты представляют собой взвешенные средние синего и красного распределений.

enter image description here

Большое спасибо за вашу помощь!

1 Ответ

0 голосов
/ 09 июля 2019

В итоге я использовал сумму всех парных расстояний движителя Земли (EMD, https://en.wikipedia.org/wiki/Earth_mover%27s_distance,, также известную как метрика Вассерштейна) в качестве глобальной метрики расстояния между всеми попарными распределениями.Это описывает разницу или сходство между двумя состояниями моей системы соответствующим образом.

EMD реализован в python в пакете 'pyemd' или с использованием scipy: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wasserstein_distance.html.

...