Я генерирую синтетический набор данных, используя этот метод:
import numpy as np
import random
def generate_dataset(size, dim):
dataset = [random.randint(0, 2 ** dim) for _ in range(size)]
# Removes duplicates
dataset = list(set(dataset))
return dataset
Как видите, точки данных генерируются случайным образом из [0 - 2^dim]
.Для любого набора данных, сгенерированного этим методом, я хочу добавить к нему noise .Сейчас я думаю о простом способе сделать это, но я не уверен, является ли он логически правильным, поэтому вот оно:
- Найти стандартное отклонение точек данных от сгенерированного набора данных.
- Создание новых точек данных, которые НЕ находятся в пределах этого стандартного отклонения.
- Добавьте их к исходному набору данных и перемешайте.
Это способ создания шума?
Спасибо.