правильное начало для генерации синтетических данных для задачи классификации в Python - PullRequest
0 голосов
/ 19 июня 2019

У меня есть набор данных с 9 функциями и 1300 строками.Я пытаюсь сгенерировать синтетические данные на настоящие данные, которые у меня есть.Выход делится на 2 варианта.а именно 1 и 0, то есть (1-да и 0-нет), проблема здесь в том, что почти 1100 случаев имеют выход «0», а 200 случаев имеют выход «1».ранее я пробовал тренироваться, но результаты не очень хорошие.Мой профессор предложил мне поработать над синтетическими данными и увеличить число выходных данных «1», чтобы это помогло в разработке модели машинного обучения.я понятия не имею о синтетических данных.Я признаю это.я просто не знаю с чего начать.кто-нибудь может помочь?как работать над этим типом проблемы.Любое предложение ценится?любой справочный код будет полезен для целей обучения.спасибо

1 Ответ

0 голосов
/ 19 июня 2019

Как я понял, вам нужно использовать Data Augmentation.

Посмотрите на это и / или это .

Вы будетебыть в состоянии значительно увеличить размер вашего набора данных и потенциально повысить точность обучения.

Что-то похожее на это: Something similar to this

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...