Предположим, у вас есть набор данных, такой как этот , содержащий несколько объектов (26), которые выглядят так (здесь показаны первые 9):
import pandas as pd
df = pd.read_csv(path, index_col=0)
df[df.columns[:9]].head()
Некоторые метрики соответствуют гауссовскому распределению, некоторые - экспоненциальному, а другие - гамме: я могу определить их, просто проверив, какое распределение лучше всего подходит для данных, используя scipy.
Если бы эти метрики не были коррелированными, я мог бы просто выбрать значения из каждого распределения, и это было бы так, но, как показывают следующие фрагменты, они действительно очень сильно коррелировали:
from seaborn import heatmap
heatmap(df.corr())
Если бы все эти метрики следовали гауссовскому распределению, я мог бы попытаться создать «простой» многомерный гауссов, используя инструменты, которые предлагает scipy , но имея дело с несколькими распределениями, я бы не знал, как объединить частичные распределения в сопряженные.
Как создать сопряженное распределение, частичное распределение которого следует нескольким распределениям?
Я не добавляю сюда подмножество набора данных, так как считаю, что это не повысит качество вопроса, но при необходимости я могу его предоставить.