Это мой примерный фрейм данных с данными о заказах:
import pandas as pd
my_dict = {
'status' : ["a", "b", "c", "d", "a","a", "d"],
'city' : ["London","Berlin","Paris", "Berlin", "Boston", "Paris", "Boston"],
'components': ["a01, a02, b01, b07, b08, с03, d07, e05, e06",
"a01, b02, b35, b68, с43, d02, d07, e04, e05, e08",
"a02, a05, b08, с03, d02, d06, e04, e05, e06",
"a03, a26, a28, a53, b08, с03, d02, f01, f24",
"a01, a28, a46, b37, с43, d06, e04, e05, f02",
"a02, a05, b35, b68, с43, d02, d07, e04, e05, e08",
"a02, a03, b08, b68, с43, d06, d07, e04, e05, e08"]
}
df = pd.DataFrame(my_dict)
df
Мне нужно посчитать чаще всего:
- Top-n совместно встречающихся компонентов в заказах
- Top-n наиболее часто встречающихся компонентов (независимо от совместного появления)
Что будет лучшим способом сделать это?
Я также вижу связь с проблемой анализа корзины, но не знаю, как это сделать.