Создать новые данные на основе существующего набора данных, используя Python - PullRequest
0 голосов
/ 17 марта 2020

У меня есть набор данных, состоящий из 21 уникальной записи данных. Чтобы сравнить производительность некоторых алгоритмов, таких как kNN и SVM, путем увеличения количества выборок для каждого класса, я хотел бы протестировать данные, содержащие не менее 20 или более уникальных записей для каждого класса (Predict Con c. Это разные классы) .

Я не хочу генерировать случайные данные . Я хотел бы использовать 21 уникальную запись данных, которую я имею в качестве базового набора данных, и генерировать оставшиеся данные, аналогичные существующим данным.

Как я могу сделать это, используя Python?

Вот пример данных

Index  OD600AV  Cell Count  Predict Conc            
1     0.059625  800000        1
2     0.063125  442000        1
3     0.067375  544000        1 
4     0.060125  728000        2
5     0.062500  616000        2
6     0.063000  688000        2
7     0.061125  532000        3
8     0.059875  470000        3
9     0.059250  556000        3
10    0.060250  466000        4
11    0.056000  222000        4
12    0.056000  390000        4
13    0.055125  112000        5
14    0.049625  105000        5
15    0.050875  120000        5
16    0.047875  56000         6
17    0.058000  44000         6
18    0.048500  140000        6
19    0.052500  62000         7
20    0.061125  52000         7
21    0.047125  64000         7  

Этот вопрос очень похож на Генерация данных с использованием существующего набора данных в качестве базового набора данных , который, кажется, был дан ответ с использованием R. Я не смог заставить его работать.

Спасибо

...