У меня есть pandas датафрейм строковых элементов. Например:
col1 | col2 | col3 |
------------------------------------
'dog' 'car' 'lilly'
'cat' 'bike' 'rose'
'pidgin' 'plane' 'sunflower'
'dog' 'car' 'poppy'
'dog' 'tractor' 'lilly'
Мы видим, что некоторые пары элементов появляются вместе несколько раз, но не всегда (например, «собака» и «машина» в первых двух столбцах или «собака» и « lilly 'в колонках 1 и 3).
У меня более трех столбцов и много меток (строковых записей). Я хочу создать некую матрицу / тепловую карту, значения которой характеризуют количество пар, которые появляются вместе, и количество раз, когда они появляются вместе, для каждой пары из 2 столбцов.
Сначала я подумал о подсчете пар и получении некоторого процента общего внешнего вида для каждого, а затем о создании термина, такого как nr_of_pairs * sum (процентная_позиция_each_pair) или такого, но это чрезвычайно дорого в вычислительном отношении. Есть идеи, что я могу использовать? Я просто хочу показать, что между 2 столбцами метки не случайны, есть шаблоны, некоторые метки из колонки X (в большинстве случаев) соответствуют некоторым меткам из колонки Y. Не знаю, как это сделать дальше.