Соотношение элементов в pandas кадре данных - PullRequest
0 голосов
/ 12 марта 2020

У меня есть pandas датафрейм строковых элементов. Например:

col1      |  col2       | col3 |  
------------------------------------
'dog'        'car'       'lilly'
'cat'        'bike'      'rose'
'pidgin'     'plane'     'sunflower'
'dog'        'car'       'poppy'
'dog'        'tractor'   'lilly'

Мы видим, что некоторые пары элементов появляются вместе несколько раз, но не всегда (например, «собака» и «машина» в первых двух столбцах или «собака» и « lilly 'в колонках 1 и 3).

У меня более трех столбцов и много меток (строковых записей). Я хочу создать некую матрицу / тепловую карту, значения которой характеризуют количество пар, которые появляются вместе, и количество раз, когда они появляются вместе, для каждой пары из 2 столбцов.

Сначала я подумал о подсчете пар и получении некоторого процента общего внешнего вида для каждого, а затем о создании термина, такого как nr_of_pairs * sum (процентная_позиция_each_pair) или такого, но это чрезвычайно дорого в вычислительном отношении. Есть идеи, что я могу использовать? Я просто хочу показать, что между 2 столбцами метки не случайны, есть шаблоны, некоторые метки из колонки X (в большинстве случаев) соответствуют некоторым меткам из колонки Y. Не знаю, как это сделать дальше.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...