У меня есть данные о группе имен (> 10 миллионов) и связанных с ними счетах.
import pandas as pd
import numpy as np
data = {
"Name": ['Sara', 'John', 'Mark', 'Peter', 'Kate'],
"Count": [20, 10, 5, 2, 5],
}
df = pd.DataFrame(data)
print(df)
Name Count
0 Sara 20
1 John 10
2 Mark 5
3 Peter 2
4 Kate 5
Я хочу вычислить энтропию столбца Count
БЕЗ расширения данных до значения, равного [Sara, Sara, Sara,...,Kate, Kate, Kate]
, поскольку для этого слишком много наблюдений.
Как рассчитать энтропию Count
без расширения данных?