У меня есть pandas dataframe вида df :
col
1 ['A','B','C','D']
2 ['A','B','D','E']
3 ['C','D']
4 ['A','B','C']
Я хотел бы рассчитать поточечное PMI для уникальных комбинаций элементов для всех элементов встолбец (например, ('A', 'B'), ('B', 'C').
Из того, что я понимаю, основываясь на приведенной выше ссылке на Википедию, я считаю, что формула будет выглядетьчто-то вроде (хотя я могу ошибаться):
np.log(pair_frequency / (element_1_frequency * element_2_frequency) )
Здесь пара может быть ('A', 'B'), element_1 может быть 'A', а элемент 2 может быть 'B'.
Как эффективный способ сделать это для вышеуказанной структуры, где у нас есть списки списков в столбце панд?