случайным образом выбирая процент единиц из двоичного массива строка за строкой? - PullRequest
0 голосов
/ 17 января 2020

У меня есть массив двоичных файлов ... что я хочу, чтобы иметь возможность выбрать определенный c процент единиц из каждой строки ... например, скажем, число единиц составляет 100 в строке, я хочу получить случайно 20% от первого ряда, 10% от второго, 40% 3-го, 30% от 4-го (всего 100%, конечно).

0| 00000000001000000010000000000000000000001000000100000000000000000000000000000001 ... 
1| 00000000000000010000000000001000000000000100000000000000000000000000000000000000 ... 
2| 00000000000000000000000000000010010000000000000000000000000000010000100000000000 ... 
3| 01000000000000100000000000000000000000001000100000000000000010000000000000000000 ... 

, что легко сделать просто random.choice ( one_idxs,%) в каждой строке. Проблема заключается в том, что число target должно быть равно 100, т. Е. Если некоторые биты перекрываются и при случайном выборе их выбирается, общее число будет отличаться от 100 бит.

Плюс включен в каждой строке следует попытаться выбрать биты, которые не были выбраны ранее, по крайней мере, в качестве опции!

Любая идея


Пример. код, который я использую для простого случая (который не учитывает повторение выбранных индексов между строками, только внутри строки):

for every row :
   ones_count = 100
   bits_cnt = int(ones_count * probs[i])
   idxs = array.get_row(i).one_idxs()
   selected = np.random.choice(idxs, size=bits_cnt, replace=False)

Мне нужно выбрать только ЕДИНИЦЫ ... вот почему Я использую индексы

Ответы [ 2 ]

0 голосов
/ 18 января 2020

ОК, в свете вашего комментария, это должно работать лучше как пример того, как выбирать только пропорционально из каждого списка / массива:

import random
a1= '10001010111110001101010101'
a2= '00101010001011010010100010'
a1 = [int(t) for t in a1]
a2 = [int(t) for t in a2]
a1_one_locations= [idx for idx, v in enumerate(a1) if v==1]
a2_one_locations= [idx for idx, v in enumerate(a2) if v==1]

# lists of indices where 1 exists in each list...
print(a1_one_locations)
print(a2_one_locations)

n_samples = 6 # total desired

# 40% from a1, remainder from a2
a1_samples = int(n_samples * 0.4)
a2_samples = n_samples - a1_samples
a1_picks = random.sample(a1_one_locations, a1_samples)
a2_picks = random.sample(a2_one_locations, a2_samples)

# print results
print('indices from a1: ', a1_picks)
print('indices from a2: ', a2_picks)

Вывод:

[0, 4, 6, 8, 9, 10, 11, 12, 16, 17, 19, 21, 23, 25]
[2, 4, 6, 10, 12, 13, 15, 18, 20, 24]
indices from a1:  [6, 21]
indices from a2:  [10, 15, 4, 20]
0 голосов
/ 17 января 2020

Использование списков строк для удобства вместо битовых массивов и получение 4 выборок ...

In [39]: data = ['10000101', 
    ...:         '11110000', 
    ...:         '00011000']                                                    

In [40]: idxs = random.sample(range(len(data[0])), 4)                           

In [41]: # 20% row 1, 30% row 2, 50% row 3                                      

In [42]: row_selections = random.choices(range(len(data)), [0.2, 0.3, 0.5], k=len(idxs))                                                               

In [43]: idxs                                                                   
Out[43]: [7, 3, 1, 4]

In [44]: row_selections                                                         
Out[44]: [0, 2, 0, 1]

In [45]: picks = [ data[r][c] for (r, c) in zip(row_selections, idxs)]          

In [46]: picks                                                                  
Out[46]: ['1', '1', '0', '0']
...