Итеративная парная корреляционная кластеризация в Python - PullRequest
0 голосов
/ 01 ноября 2019

У меня есть корреляционная матрица доходности акций и я хочу применить алгоритм кластеризации, чтобы группировать корреляции итеративным способом, который группирует, пересчитывает матрицу корреляции на каждой итерации в python.

Я использовал K-средства, агломеративную иерархическую кластеризацию. Ни один из них не обрабатывает данные так, как мне бы хотелось. агломеративная иерархия, вероятно, самая близкая, которую я нашел.

Я использовал K-средства и агломерационную иерархическую кластеризацию. Кажется, ни один из них не обрабатывает данные так, как мне хотелось бы.

Ни один из них не обрабатывает данные так, как мне хотелось бы. В конечном счете, я пытаюсь найти самую высокую попарную корреляцию, сгруппировать эту пару в одну «безопасность», а затем повторно запустить таблицу корреляции. Итак, корреляционной матрицей становятся и n-1 по n-1 корреляционной матрице. После того, как следующий шаг корреляции завершен, группировка запускается снова, находя самую высокую корреляцию с начальной группой. Несколько раундов этого процесса выполняются до тех пор, пока корреляция между большей группой и одной ценной бумагой не станет меньше, чем другая парная корреляция в таблице. Как только это происходит, новая группа запускается и продолжается до тех пор, пока не будут использованы все пары положительной корреляции.

Существует ли алгоритм кластеризации Python, который обрабатывает данные таким образом? Я провел много поисков в Интернете и изучал различные алгоритмы и не нашел такого, который обрабатывал бы данные в этом итеративном подходе по отношению к матрице корреляции. Если бы мне пришлось написать эту функцию с нуля, я не уверен, с чего бы мне начать.

...