Question

Я работаю с набором данных https://nlp.stanford.edu/sentiment/treebank.html.У него есть две колонки.одна - это обзор одной или двух строк.Второй рейтинг - число от 0 до 4. Общее количество записей - 8533. Данные распределяются следующим образом:

оценка, количество примеров для этой оценки
3, 2318
1, 2215
2, 1623
4, 1287
0, 1090

Теперь яхочу взять образец из этого набора данных размером, скажем, 10, 20, 30 и так далее.Каждый раз я хочу сохранить распределение классов таким же, как в исходном наборе данных.Как я могу это сделать?

GapPs · Answer 1 · 22 мая 2019

Посмотрите на стратифицированную выборку, это стандартная проблема многих существующих решений.https://en.wikipedia.org/wiki/Stratified_sampling https://stats.stackexchange.com/questions/250273/benefits-of-stratified-vs-random-sampling-for-generating-training-data-in-classi

Как взять образец из набора данных, сохраняя тот же баланс класса?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как взять образец из набора данных, сохраняя тот же баланс класса?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы