У меня есть данные, которые содержат строку для каждого пользователя, затем множество столбцов, заполненных 1
или 0
на основе их взаимодействия с определенной категорией продукта.
Я выполняю некоторый корреляционный анализ, и яЯ хотел бы удалить менее значимые категории, чтобы облегчить чтение моего анализа. Я использовал .sum()
на своем фрейме данных, чтобы увидеть категории, с которыми больше всего взаимодействует, но как теперь я могу запустить корреляцию только для этого набора?
Вот образец из моего .sum()
:
shoes_and_flats 37
nightwear_and_slippers 61
shorts_and_shorts 23
accessories_and_fragrance 25
jackets_and_coats_and_wool 12
dresses_and_skirts_and_sleeveless_dresses 35
swimwear_and_bikinis 49
dresses_and_skirts_and_floral_dresses 7
jackets_and_coats_and_harrington_jackets 18
dresses_and_skirts_and_tunic_dresses 8
sports_performance_tops_and_vests 4
jeans_and_bootcut_jeans 2
nightwear_and_nightwear 1
Создано в результате ...
totals = df.sum()
Я решил, чтоЯ хотел бы удалить категории с менее чем 50 взаимодействиями, поэтому я использовал ... totals = totals[1: -1].sort_values() > 50
Но это возвращает все категории независимо от их значения True
или False
.
Моя конечная цель - использовать .corr()
для данных, как я могу выполнить это и вернуть только сетку, в которой категории имеют более 50 взаимодействий?