Генерация искусственных данных из реальных данных - PullRequest
0 голосов
/ 18 мая 2019

У меня есть фрейм данных, состоящий из 2000 строк и 5 объектов (столбцов):

    my_data:
            Id,   f1,   f2,  f3,   f4(target_value)
            u1    34     sd  43        1
            u1    30     fd   3        0
            u1    01     sd  2.4       0
            ..    ..     ..   ..      .. 
            u1    13     sd  23        1
            u2    23     fd  12        0
            u2    30     fd   3        1
            u2    15     sd  2.4       0
            ..    ..     ..   ..      .. 
            u2    18     xd  20        0
            u3    66     ss  43        1
            u3    30     fd  23        1
            u3    50     sd  21        0
            ..    ..     ..   ..      .. 
            u3    37     sd  28        1

В этом кадре данных для каждого идентификатора (например, u1 или u2) имеется всего несколько экземпляров, например, 10, 13 или максимум 15 выборок. Поскольку я хочу выполнить некоторые задачи классификации и прогнозирования для каждого отдельного идентификатора, это количество точек данных недостаточно для задачи ML. Есть ли способ, которым я могу сгенерировать некоторое искусственное назначение данных для каждого идентификатора (что-то вроде избыточной выборки), которое статистически может опираться на задачу машинного обучения?

...