Является ли Pandas.DataFrame.sample (n = batch_size) хорошим способом получения пакетных данных? - PullRequest
0 голосов
/ 07 июня 2018

Я пытаюсь найти альтернативу встроенным реализациям, таким как mnist.train.next_batch(BATCH_SIZE)

При попытке реализовать функцию, которая возвращает пакет данных, я нашел pd.sample(n), и, похоже, он работаетхорошо.

Но мне было интересно, есть ли какие-то предостережения в использовании pd.sample() для машинного обучения?

Приветствия.

1 Ответ

0 голосов
/ 07 июня 2018

Я буду рекомендовать использовать

sklearn.model_selection.StratifiedKFold 

На основе документа: предоставляет индексы поезда / теста для разделения данных в наборах тестов поезда.

Этот объект перекрестной проверки является разновидностью KFoldэто возвращает стратифицированные складки.Сгибы создаются с помощью с сохранением процента выборок для каждого класса.

Если вы используете resample.Например, для модели классификатора трудно сделать так, чтобы все подданные содержали все классы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...