'Tiling' 2d массив, используя NumPy - PullRequest
3 голосов
/ 31 января 2012

Я пытаюсь уменьшить размер двумерного массива, взяв большинство квадратных кусков массива и записав их в другой массив. Размер квадратных кусков является переменным, скажем, n значений на стороне. Тип данных массива будет целым числом. В настоящее время я использую цикл в Python для назначения каждого чанка временному массиву, а затем извлекаю уникальные значения из tmpArray. Затем я перебираю их и нахожу тот, у которого больше всего встречается. Как вы можете себе представить, этот процесс быстро становится слишком медленным по мере увеличения размера входного массива.

Я видел примеры, берущие мин, максимумы и средние из моих квадратных кусков, но я не знаю, как преобразовать их в большинство. Группировка двумерных массивов в среднем а также изменить размер с усреднением или перебрать массив ndy 2d

Я ищу способы ускорить этот процесс, используя numpy для выполнения этого процесса на всем массиве. (переключение на мозаичные секции массива, когда входные данные становятся слишком большими, чтобы поместиться в памяти, я могу справиться с этим аспектом)

Спасибо

#snippet of my code
#pull a tmpArray representing one square chunk of my input array
kernel = sourceDs.GetRasterBand(1).ReadAsArray(int(sourceRow), 
                                    int(sourceCol), 
                                    int(numSourcePerTarget),
                                    int(numSourcePerTarget))
#get a list of the unique values
uniques = np.unique(kernel)
curMajority = -3.40282346639e+038
for val in uniques:
    numOccurances = (array(kernel)==val).sum()
    if numOccurances > curMajority:
        ans = val
        curMajority = numOccurances

#write out our answer
outBand.WriteArray(curMajority, row, col)

#This is insanity!!!

Следуя исключительным предложениям Баго, я думаю, что я на пути к решению. Вот что у меня так далеко. Одним из изменений, которое я сделал, было использование массива (x y, n n) из исходной формы сетки. Проблема, с которой я сталкиваюсь, заключается в том, что я не могу понять, как перевести шаги where, count и uniq_a из одного измерения в два.

#test data
grid = np.array([[ 37,  1,  4,  4, 6,  6,  7,  7],
                 [ 1,  37,  4,  5, 6,  7,  7,  8],
                 [ 9,  9, 11, 11, 13,  13,  15,  15],
                 [9, 10, 11, 12, 13,  14,  15,  16],
                 [ 17, 17,  19,  19, 21,  11,  23,  23],
                 [ 17, 18,  19,  20, 11,  22,  23,  24],
                 [ 25, 25, 27, 27, 29,  29,  31,  32],
                 [25, 26, 27, 28, 29,  30,  31,  32]])
print grid

n = 4
X, Y = grid.shape
x = X // n
y = Y // n
grid = grid.reshape( (x, n, y, n) )
grid = grid.transpose( [0, 2, 1, 3] )
grid = grid.reshape( (x*y, n*n) )
grid = np.sort(grid)
diff = np.empty((grid.shape[0], grid.shape[1]+1), bool)
diff[:, 0] = True
diff[:, -1] = True
diff[:, 1:-1] = grid[:, 1:] != grid[:, :-1]
where = np.where(diff)

#This is where if falls apart for me as 
#where returns two arrays:
# row indices [0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3]
# col indices [ 0  2  5  6  9 10 13 14 16  0  3  7  8 11 12 15 16  0  3  4  7  8 11 12 15
# 16  0  2  3  4  7  8 11 12 14 16]
#I'm not sure how to get a 
counts = where[:, 1:] - where[:, -1]
argmax = counts[:].argmax()
uniq_a = grid[diff[1:]]
print uniq_a[argmax]

Ответы [ 2 ]

3 голосов
/ 31 января 2012

Вот функция, которая найдет большинство гораздо быстрее, она основана на реализации numpy.unique.

def get_majority(a):
    a = a.ravel()
    a = np.sort(a)
    diff = np.empty(len(a)+1, 'bool')
    diff[0] = True
    diff[-1] = True
    diff[1:-1] = a[1:] != a[:-1]
    where = np.where(diff)[0]
    counts = where[1:] - where[:-1]
    argmax = counts.argmax()
    uniq_a = a[diff[1:]]
    return uniq_a[argmax]

Дайте мне знать, если это поможет.

Обновление

Вы можете сделать следующее, чтобы ваш массив был (n*n, x, y), что должно настроить вас на работу с первой осью и сделать это векторизованным способом.

X, Y = a.shape
x = X // n
y = Y // n
a = a.reshape( (x, n, y, n) )
a = a.transpose( [1, 3, 0, 2] )
a = a.reshape( (n*n, x, y) )

Только несколько вещей, которые нужно иметь в виду. Несмотря на то, что, когда это возможно, изменяйте и перемещайте возвращаемые представления, я считаю, что reshape-transpose-reshape будет вынужден копировать. Также возможно обобщение описанного выше метода для работы с осью, но это может занять немного творчества.

1 голос
/ 01 февраля 2012

Может быть, это немного не так, но я прибег к функции scipy.stats.stats, чтобы найти значение большинства.Я не уверен, как это сравнивается с другими решениями с точки зрения времени обработки.

import scipy.stats.stats as stats
#test data
grid = np.array([[ 37,  1,  4,  4, 6,  6,  7,  7],
                 [ 1,  37,  4,  5, 6,  7,  7,  8],
                 [ 9,  9, 11, 11, 13,  13,  15,  15],
                 [9, 10, 11, 12, 13,  14,  15,  16],
                 [ 17, 17,  19,  19, 21,  11,  23,  23],
                 [ 17, 18,  19,  20, 11,  22,  23,  24],
                 [ 25, 25, 27, 27, 29,  29,  31,  32],
                 [25, 26, 27, 28, 29,  30,  31,  32]])
print grid

n = 2
X, Y = grid.shape
x = X // n
y = Y // n
grid = grid.reshape( (x, n, y, n) )
grid = grid.transpose( [0, 2, 1, 3] )
grid = grid.reshape( (x*y, n*n) )
answer =  np.array(stats.mode(grid, 1)[0]).reshape(x, y)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...