Я хочу сгруппировать различные распределения вероятностей в форме гистограмм.У меня есть набор данных с> 10 М наблюдений.Одно наблюдение имеет 5 различных гистограмм (> 100 признаков).Целью кластеризации является сокращение данных путем создания кодовой книги / прототипов, с помощью которых я могу представлять распределения исходного набора данных.
Теперь я не уверен, каков наилучший способ сделать это.Идеи таковы:
Как бы вы оценили идеи? Они осуществимы? Я пропускаю явно более производительное / простое решение? Любые советы будут с благодарностью!