У меня есть набор данных, состоящий из 21 уникальной записи данных. Чтобы сравнить производительность некоторых алгоритмов, таких как kNN и SVM, путем увеличения количества выборок для каждого класса, я хотел бы протестировать данные, содержащие не менее 20 или более уникальных записей для каждого класса (Predict Con c. Это разные классы) .
Я не хочу генерировать случайные данные . Я хотел бы использовать 21 уникальную запись данных, которую я имею в качестве базового набора данных, и генерировать оставшиеся данные, аналогичные существующим данным.
Как я могу сделать это, используя Python?
Вот пример данных
Index OD600AV Cell Count Predict Conc
1 0.059625 800000 1
2 0.063125 442000 1
3 0.067375 544000 1
4 0.060125 728000 2
5 0.062500 616000 2
6 0.063000 688000 2
7 0.061125 532000 3
8 0.059875 470000 3
9 0.059250 556000 3
10 0.060250 466000 4
11 0.056000 222000 4
12 0.056000 390000 4
13 0.055125 112000 5
14 0.049625 105000 5
15 0.050875 120000 5
16 0.047875 56000 6
17 0.058000 44000 6
18 0.048500 140000 6
19 0.052500 62000 7
20 0.061125 52000 7
21 0.047125 64000 7
Этот вопрос очень похож на Генерация данных с использованием существующего набора данных в качестве базового набора данных , который, кажется, был дан ответ с использованием R. Я не смог заставить его работать.
Спасибо