Я тестирую производительность алгоритма машинного обучения, в частности, как он обрабатывает пропущенные данные и какие потери производительности наблюдаются при отсутствии переменных.
Например, когда 20% переменной x отсутствуетТочность модели снижается на определенный%.Для этого я хотел бы смоделировать отсутствующие данные, заменив 20% строк в столбце данных.
Существует ли способ сделать это?
, начиная с df:
d = {'var1': [1, 2, 3, 4], 'var2': [5, 6, 7, 8]}
df = pd.DataFrame(data=d)
df
var1 var2
0 1 5
1 2 6
2 3 7
3 4 8
конечный результат: случайное падение 50% столбца 'var1'
df
var1 var2
0 nan 5
1 2 6
2 nan 7
3 4 8