Как кластеризовать данные и посчитать их в Python? - PullRequest
0 голосов
/ 10 января 2019

Я хотел бы объединить все различные заказы, сделанные в моем наборе данных, и подсчитать их, чтобы я знал, какие продукты чаще всего покупаются.

enter image description here

Пока что я могу понять, как их сгруппировать, но я все еще не знаю, как их кластеризовать и подсчитывать.

 datasetProduct = dataset[dataset['Country'].isin(["White Metal Lantern"])].copy()
 datasetProduct.head()

Ответы [ 2 ]

0 голосов
/ 11 января 2019

Кластеризация - это неправильный инструмент, если вы хотите подсчитать наиболее часто встречающиеся продукты.

Просто сгруппируйте и считайте без кластеризации.

0 голосов
/ 10 января 2019

Если вы хотите посчитать вхождение столбца Description, вы можете сделать:

df["Description"]._value_counts()

В этом списке будет отображаться вхождение каждого уникального элемента в столбец Description в порядке убывания.

В зависимости от того, что вы хотите сделать, вы также можете сгруппировать данные по Country и получить уникальные значения для столбца Description для каждой страны:

df.groupby("Country")["Description"].value_counts()
...