Я использую пакет R mclust для выполнения классификации дискриминационных функций на основе модели.Я немного озадачен тем, как интерпретировать выходные данные вероятности микширования, и хотел бы получить четкое объяснение.
Насколько я понимаю, при кластеризации набора данных с использованием функции Mclust()
вы получаете вектор вероятностей смешивания, которые в сумме составляют 1, что соответствует пропорциям данных, назначенных этим кластерам.Количество кластеров контролируется командой G
.Чтобы получить представление об изменении этих оценок, вы можете запустить загрузчик с помощью MclustBootstrap, чтобы получить доверительные интервалы вокруг этих оценок пропорций.
Но при использовании функции MclustDA()
каждый класс - это не просто кластер, каждый класс может быть собственной смесью гауссиан, максимальное число которых контролируется командой G
.Таким образом, он будет соответствовать каждому классу с несколькими распределениями Гаусса и, таким образом, множественными вероятностями смешивания, которые в сумме составляют 1 в классе.На самом деле не существует вывода общих вероятностей смешивания между классами, как я ожидал.
Команда cvMclustDA()
дает общую частоту ошибок перекрестной проверки, но меня интересует, могу ли я лучше понять разницу в пропорциях, присваиваемых каждому классу, или ошибку присваивания внутри классов, а не тольков общем и целом.
Есть ли способ добраться до этого?Можно ли при этом использовать матрицу z
после выполнения вызова predict()
с исходными данными?Или путем начальной загрузки прогнозов исходных данных?