Когда я запускаю базу c, чтобы увидеть счетчики моих кластеров следующим образом:
a.groupby('clusters').count()
мои результаты выглядят так:
clusters a b c
0 10000 10000 10000
1 10000 10000 10000
2 20000 20000 20000
Затем я хочу разделить Пример, скажем, на эти суммы, чтобы получить пропорциональное количество выходных столбцов и использовать приведенный ниже код следующим образом:
stratify = data.sample(n=10000, weights='clusters', random_state=0)
, чтобы в этом поддельном примере мой набор данных уменьшился в 4 раза, и если я сделаю то же самое группирование на новом фрейме данных, который я создаю на основе 1-й строки выше, я должен получить строку 0 = 2500, строку 1 = 2500 и строку 2 = 5000, однако для некоторых я понятия не имею, что это может быть причиной того, что я получаю вместо этого, я получаю правильный вывод для строк 1 и 2, но строка 0 просто исчезает:
stratify.groupby('clusters').count()
вывод выглядит следующим образом
clusters a b c
1 2500 2500 2500
2 5000 5000 5000
Почему в мире мой 1-й ряд исчез? В этом нет ничего особенного ...