Как взять образец из набора данных, сохраняя тот же баланс класса? - PullRequest
0 голосов
/ 24 октября 2018

Я работаю с набором данных https://nlp.stanford.edu/sentiment/treebank.html.У него есть две колонки.одна - это обзор одной или двух строк.Второй рейтинг - число от 0 до 4. Общее количество записей - 8533. Данные распределяются следующим образом:

  • оценка, количество примеров для этой оценки
  • 3, 2318
  • 1, 2215
  • 2, 1623
  • 4, 1287
  • 0, 1090

Теперь яхочу взять образец из этого набора данных размером, скажем, 10, 20, 30 и так далее.Каждый раз я хочу сохранить распределение классов таким же, как в исходном наборе данных.Как я могу это сделать?

1 Ответ

0 голосов
/ 22 мая 2019

Посмотрите на стратифицированную выборку, это стандартная проблема многих существующих решений.https://en.wikipedia.org/wiki/Stratified_sampling https://stats.stackexchange.com/questions/250273/benefits-of-stratified-vs-random-sampling-for-generating-training-data-in-classi

...