Я пытаюсь уменьшить размер двумерного массива, взяв большинство квадратных кусков массива и записав их в другой массив. Размер квадратных кусков является переменным, скажем, n значений на стороне. Тип данных массива будет целым числом. В настоящее время я использую цикл в Python для назначения каждого чанка временному массиву, а затем извлекаю уникальные значения из tmpArray. Затем я перебираю их и нахожу тот, у которого больше всего встречается. Как вы можете себе представить, этот процесс быстро становится слишком медленным по мере увеличения размера входного массива.
Я видел примеры, берущие мин, максимумы и средние из моих квадратных кусков, но я не знаю, как преобразовать их в большинство.
Группировка двумерных массивов в среднем
а также
изменить размер с усреднением или перебрать массив ndy 2d
Я ищу способы ускорить этот процесс, используя numpy для выполнения этого процесса на всем массиве. (переключение на мозаичные секции массива, когда входные данные становятся слишком большими, чтобы поместиться в памяти, я могу справиться с этим аспектом)
Спасибо
#snippet of my code
#pull a tmpArray representing one square chunk of my input array
kernel = sourceDs.GetRasterBand(1).ReadAsArray(int(sourceRow),
int(sourceCol),
int(numSourcePerTarget),
int(numSourcePerTarget))
#get a list of the unique values
uniques = np.unique(kernel)
curMajority = -3.40282346639e+038
for val in uniques:
numOccurances = (array(kernel)==val).sum()
if numOccurances > curMajority:
ans = val
curMajority = numOccurances
#write out our answer
outBand.WriteArray(curMajority, row, col)
#This is insanity!!!
Следуя исключительным предложениям Баго, я думаю, что я на пути к решению.
Вот что у меня так далеко. Одним из изменений, которое я сделал, было использование массива (x y, n n) из исходной формы сетки. Проблема, с которой я сталкиваюсь, заключается в том, что я не могу понять, как перевести шаги where, count и uniq_a из одного измерения в два.
#test data
grid = np.array([[ 37, 1, 4, 4, 6, 6, 7, 7],
[ 1, 37, 4, 5, 6, 7, 7, 8],
[ 9, 9, 11, 11, 13, 13, 15, 15],
[9, 10, 11, 12, 13, 14, 15, 16],
[ 17, 17, 19, 19, 21, 11, 23, 23],
[ 17, 18, 19, 20, 11, 22, 23, 24],
[ 25, 25, 27, 27, 29, 29, 31, 32],
[25, 26, 27, 28, 29, 30, 31, 32]])
print grid
n = 4
X, Y = grid.shape
x = X // n
y = Y // n
grid = grid.reshape( (x, n, y, n) )
grid = grid.transpose( [0, 2, 1, 3] )
grid = grid.reshape( (x*y, n*n) )
grid = np.sort(grid)
diff = np.empty((grid.shape[0], grid.shape[1]+1), bool)
diff[:, 0] = True
diff[:, -1] = True
diff[:, 1:-1] = grid[:, 1:] != grid[:, :-1]
where = np.where(diff)
#This is where if falls apart for me as
#where returns two arrays:
# row indices [0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3]
# col indices [ 0 2 5 6 9 10 13 14 16 0 3 7 8 11 12 15 16 0 3 4 7 8 11 12 15
# 16 0 2 3 4 7 8 11 12 14 16]
#I'm not sure how to get a
counts = where[:, 1:] - where[:, -1]
argmax = counts[:].argmax()
uniq_a = grid[diff[1:]]
print uniq_a[argmax]