В стратифицированной случайной выборке отсутствует одно из значений для стратификации - PullRequest
0 голосов
/ 18 января 2020

Когда я запускаю базу c, чтобы увидеть счетчики моих кластеров следующим образом:

a.groupby('clusters').count() 

мои результаты выглядят так:

clusters         a         b         c
0                10000     10000     10000
1                10000     10000     10000
2                20000     20000     20000

Затем я хочу разделить Пример, скажем, на эти суммы, чтобы получить пропорциональное количество выходных столбцов и использовать приведенный ниже код следующим образом:

stratify = data.sample(n=10000, weights='clusters', random_state=0)

, чтобы в этом поддельном примере мой набор данных уменьшился в 4 раза, и если я сделаю то же самое группирование на новом фрейме данных, который я создаю на основе 1-й строки выше, я должен получить строку 0 = 2500, строку 1 = 2500 и строку 2 = 5000, однако для некоторых я понятия не имею, что это может быть причиной того, что я получаю вместо этого, я получаю правильный вывод для строк 1 и 2, но строка 0 просто исчезает:

stratify.groupby('clusters').count()

вывод выглядит следующим образом

clusters         a         b         c
1                2500      2500      2500
2                5000      5000      5000

Почему в мире мой 1-й ряд исчез? В этом нет ничего особенного ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...