Обмен значениями внутри классов - PullRequest
0 голосов
/ 23 ноября 2018

Как мне поменять значения внутри классов?

Как показано в этой таблице:

- - - - - - - - - - До - - - - - - - - -- - - - - - - - - После - - - - - - - - - -

SWAP

Я хочу сделать это, потому что все конченовыборочные данные.Это очень многократное повторение, и это приводит к переоснащению инструментов машинного обучения.

1 Ответ

0 голосов
/ 23 ноября 2018

ОК, попробуйте это:

# Setup example dataframe
df = pd.DataFrame({"Class" : [1,2,1,3,1,2,1,3,1,2,1,3,1,2,1,3], 
                1:[1,1,1,0,1,0,1,0,1,0,1,0,1,0,1,1], 
                2:[0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,0],
                3:[0,0,1,1,1,0,1,1,0,0,1,1,1,0,1,1],
                4:[1,0,1,1,1,0,1,1,1,0,1,1,1,0,1,1], 
                5:[0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1],
                6:[0,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1]}).set_index("Class")
# Do a filter on class, and store the positions/index of matching contents
class_to_edit=3
swappable_indices = np.where(df.index==class_to_edit)[0]
# Extract the column to edit
column_to_edit=1
column_values = df[column_to_edit].values

# Decide how many values to swap, and randomly assign swaps
# No guarantee here that the swaps will not contain the same values i.e. you could
# end up swapping 1's for 1's and 0's for 0's here - it's entirely random. 
number_of_swaps = 2
swap_pairs = np.random.choice(swappable_indices,number_of_swaps*2, replace=False)

# Using the swap pairs, build a map of substitutions, 
# starting with a vanilla no-swap map, then updating it with the generated swaps
swap_map={e:e for e in range(0,len(column_values))}
swap_map.update({swappable_indices[e]:swappable_indices[e+1] for e in range(0,len(swap_pairs),2)})
swap_map.update({swappable_indices[e+1]:swappable_indices[e] for e in range(0,len(swap_pairs),2)})

# Having built the swap-map, apply it to the data in the column, 
column_values=[column_values[swap_map[e]] for e,v in enumerate(column_values)]
# and then plug the column back into the dataframe
df[column_to_edit]=column_values

Это немного грязно, и я уверен, что есть более чистый способ построить эту карту подстановки, возможно, в понимании списка из одной строки - но это должно сделатьтрюк.

В качестве альтернативы есть функция np.permute , которая может принести некоторые плоды в плане добавления некоторого шума (хотя и не путем выполнения дискретных перестановок).

[править] Длятестируя, попробуйте набор данных с меньшей жесткостью, вот пример более случайно сгенерированного.Просто отредактируйте столбцы, которые вы хотите заменить на фиксированные значения, если вы хотите наложить некоторый порядок в наборе данных.

df = pd.DataFrame({"Class" : [1,2,1,3,1,2,1,3,1,2,1,3,1,2,1,3], 
            1:np.random.choice([0,1],16), 
            2:np.random.choice([0,1],16),
            3:np.random.choice([0,1],16),
            4:np.random.choice([0,1],16), 
            5:np.random.choice([0,1],16),
            6:np.random.choice([0,1],16)}).set_index("Class")
...