Оценить идею генерации шума на основе стандартного отклонения - PullRequest
0 голосов
/ 27 января 2019

Я генерирую синтетический набор данных, используя этот метод:

import numpy as np
import random

def generate_dataset(size, dim):

    dataset = [random.randint(0, 2 ** dim) for _ in range(size)]

    # Removes duplicates
    dataset = list(set(dataset))

    return dataset

Как видите, точки данных генерируются случайным образом из [0 - 2^dim].Для любого набора данных, сгенерированного этим методом, я хочу добавить к нему noise .Сейчас я думаю о простом способе сделать это, но я не уверен, является ли он логически правильным, поэтому вот оно:

  1. Найти стандартное отклонение точек данных от сгенерированного набора данных.
  2. Создание новых точек данных, которые НЕ находятся в пределах этого стандартного отклонения.
  3. Добавьте их к исходному набору данных и перемешайте.

Это способ создания шума?

Спасибо.

1 Ответ

0 голосов
/ 29 января 2019

кажется, что вы создаете выбросы.Для меня шум больше похож на добавление небольшого числа (+/- число) к точкам данных.Например, сколько шагов вы прошли сегодня?это может быть 100, но некоторые устройства трассировки могут показывать 95 или 110. эта разница - шум.

не уверен, поможет ли это.

...