У меня есть датафрейм, который содержит классифицированные данные об образовании директоров нескольких компаний. В настоящее время каждая компания (записанная по ее тикеру) имеет несколько записей, по одной на директора, и df выглядит примерно так:
Ticker Education
ABC 1
ABC 1
ABC 5
ABC 7
ABC 5
DEF 3
DEF 4
DEF 4
DEF 4
DEF 6
Я хочу использовать формулу индекса Блау (такую же, как индекс Джини-Симпсона), чтобы создать новый фрейм данных с одной записью на компанию следующим образом:
Ticker Education Diversity
ABC 0.64
DEF 0.56
Используется формула (1 - ∑p i 2 ), где p i - доля директоров в каждой из i категорий образования; например для компании ABC, p 1 = 2 / 5.
Может кто-нибудь помочь мне реализовать это в Python (3.7)? Любая помощь будет принята с благодарностью!