Приближенное сопряженное распределение из коррелированных точек данных с питоном - PullRequest
0 голосов
/ 29 мая 2019

Предположим, у вас есть набор данных, такой как этот , содержащий несколько объектов (26), которые выглядят так (здесь показаны первые 9):

import pandas as pd
df = pd.read_csv(path, index_col=0)
df[df.columns[:9]].head()

Dataset preview

Некоторые метрики соответствуют гауссовскому распределению, некоторые - экспоненциальному, а другие - гамме: я могу определить их, просто проверив, какое распределение лучше всего подходит для данных, используя scipy.

Если бы эти метрики не были коррелированными, я мог бы просто выбрать значения из каждого распределения, и это было бы так, но, как показывают следующие фрагменты, они действительно очень сильно коррелировали:

from seaborn import heatmap
heatmap(df.corr())

Correlation heatmap

Если бы все эти метрики следовали гауссовскому распределению, я мог бы попытаться создать «простой» многомерный гауссов, используя инструменты, которые предлагает scipy , но имея дело с несколькими распределениями, я бы не знал, как объединить частичные распределения в сопряженные.

Как создать сопряженное распределение, частичное распределение которого следует нескольким распределениям?

Я не добавляю сюда подмножество набора данных, так как считаю, что это не повысит качество вопроса, но при необходимости я могу его предоставить.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...