Как рассчитать точечную взаимную информацию (PMI) из столбца панд списка списков? - PullRequest
0 голосов
/ 08 февраля 2019

У меня есть pandas dataframe вида df :

    col
1   ['A','B','C','D']
2   ['A','B','D','E']
3   ['C','D']
4   ['A','B','C']

Я хотел бы рассчитать поточечное PMI для уникальных комбинаций элементов для всех элементов встолбец (например, ('A', 'B'), ('B', 'C').

Из того, что я понимаю, основываясь на приведенной выше ссылке на Википедию, я считаю, что формула будет выглядетьчто-то вроде (хотя я могу ошибаться):

np.log(pair_frequency / (element_1_frequency *  element_2_frequency) )

Здесь пара может быть ('A', 'B'), element_1 может быть 'A', а элемент 2 может быть 'B'.

Как эффективный способ сделать это для вышеуказанной структуры, где у нас есть списки списков в столбце панд?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...