Question

У меня есть один массив numpy, где индексы хранятся в форме (n, 2). E.g.:

[[0, 1],
 [2, 3], 
 [1, 2], 
 [4, 2]]

Затем я выполняю некоторую обработку и создаю массив в форме (m, 2), где n > m. E.g.:

[[2, 3]
 [4, 2]]

Теперь я хочу удалить каждую строку в первом массиве, которая также может быть найдена во втором массиве. Итак, мой желаемый результат:

[[0, 1], 
 [1, 2]]

Мое текущее решение выглядит следующим образом:

for row in second_array:
        result = np.delete(first_array, np.where(np.all(first_array == second_array, axis=1)), axis=0)

Однако, это занимает много времени, если секунда большая. Кто-нибудь знает решение только для numpy, которое не требует цикла?

Divakar · Answer 1 · 05 апреля 2019

Здесь используется тот факт, что они являются положительными числами, использующими matrix-multiplication для уменьшения размерности -

def setdiff_nd_positivenums(a,b):
    s = np.maximum(a.max(0)+1,b.max(0)+1)
    return a[~np.isin(a.dot(s),b.dot(s))]

Пробный прогон -

In [82]: a
Out[82]: 
array([[0, 1],
       [2, 3],
       [1, 2],
       [4, 2]])

In [83]: b
Out[83]: 
array([[2, 3],
       [4, 2]])

In [85]: setdiff_nd_positivenums(a,b)
Out[85]: 
array([[0, 1],
       [1, 2]])

Также кажется, что второй массив b является подмножеством a. Таким образом, мы можем использовать этот сценарий для дальнейшего повышения производительности, используя np.searchsorted, вот так -

def setdiff_nd_positivenums_searchsorted(a,b):
    s = np.maximum(a.max(0)+1,b.max(0)+1)
    a1D,b1D = a.dot(s),b.dot(s)
    b1Ds = np.sort(b1D)
    return a[b1Ds[np.searchsorted(b1Ds,a1D)] != a1D]

Сроки -

In [146]: np.random.seed(0)
     ...: a = np.random.randint(0,9,(1000000,2))
     ...: b = a[np.random.choice(len(a), 10000, replace=0)]

In [147]: %timeit setdiff_nd_positivenums(a,b)
     ...: %timeit setdiff_nd_positivenums_searchsorted(a,b)
10 loops, best of 3: 101 ms per loop
10 loops, best of 3: 70.9 ms per loop

Для общих чисел, вот еще одно использование views -

# https://stackoverflow.com/a/45313353/ @Divakar
def view1D(a, b): # a, b are arrays
    a = np.ascontiguousarray(a)
    b = np.ascontiguousarray(b)
    void_dt = np.dtype((np.void, a.dtype.itemsize * a.shape[1]))
    return a.view(void_dt).ravel(),  b.view(void_dt).ravel()

def setdiff_nd(a,b):
    # a,b are the nD input arrays
    A,B = view1D(a,b)    
    return a[~np.isin(A,B)]

Пробный прогон -

In [94]: a
Out[94]: 
array([[ 0,  1],
       [-2, -3],
       [ 1,  2],
       [-4, -2]])

In [95]: b
Out[95]: 
array([[-2, -3],
       [ 4,  2]])

In [96]: setdiff_nd(a,b)
Out[96]: 
array([[ 0,  1],
       [ 1,  2],
       [-4, -2]])

Сроки -

In [158]: np.random.seed(0)
     ...: a = np.random.randint(0,9,(1000000,2))
     ...: b = a[np.random.choice(len(a), 10000, replace=0)]

In [159]: %timeit setdiff_nd(a,b)
1 loop, best of 3: 352 ms per loop

Eelco Hoogendoorn · Answer 2 · 05 апреля 2019

Пакет с индексом numy-indexed (заявление об отказе от ответственности: я его автор) был разработан для эффективного выполнения операций этого типа над массивами nd-массивов.

import numpy_indexed as npi
# if the output should consist of unique values and there is no need to preserve ordering
result = npi.difference(first_array, second_array)
# otherwise:
result = first_array[~npi.in_(first_array, second_array)]

jdehesa · Answer 3 · 05 апреля 2019

Вот функция, которая работает с двумерными массивами целых чисел любой формы и принимает как положительные, так и отрицательные числа:

import numpy as np

# Gets a boolean array of rows of a that are in b
def isin_rows(a, b):
    a = np.asarray(a)
    b = np.asarray(b)
    # Subtract minimum value per column
    min = np.minimum(a.min(0), b.min(0))
    a = a - min
    b = b - min
    # Get maximum value per column
    max = np.maximum(a.max(0), b.max(0))
    # Compute multiplicative base for each column
    base = np.roll(max, 1)
    base[0] = 1
    base = np.cumprod(max)
    # Make flattened version of arrays
    a_flat = (a * base).sum(1)
    b_flat = (b * base).sum(1)
    # Check elements of a in b
    return np.isin(a_flat, b_flat)

# Test
a = np.array([[0, 1],
              [2, 3],
              [1, 2],
              [4, 2]])
b = np.array([[2, 3],
              [4, 2]])
a_in_b_mask = isin_rows(a, b)
a_not_in_b = a[~a_in_b_mask]
print(a_not_in_b)
# [[0 1]
#  [1 2]]

РЕДАКТИРОВАТЬ: Одна возможная оптимизация возникает из рассмотрения количества возможных строк в b. Если b имеет больше строк, чем возможное количество комбинаций, то вы можете сначала найти его уникальные элементы, поэтому np.isin быстрее:

import numpy as np

def isin_rows_opt(a, b):
    a = np.asarray(a)
    b = np.asarray(b)
    min = np.minimum(a.min(0), b.min(0))
    a = a - min
    b = b - min
    max = np.maximum(a.max(0), b.max(0))
    base = np.roll(max, 1)
    base[0] = 1
    base = np.cumprod(max)
    a_flat = (a * base).sum(1)
    b_flat = (b * base).sum(1)
    # Count number of possible different rows for b
    num_possible_b = np.prod(b.max(0) - b.min(0) + 1)
    if len(b_flat) > num_possible_b:  # May tune this condition
        b_flat = np.unique(b_flat)
    return np.isin(a_flat, b_flat)

Условие len(b_flat) > num_possible_b, вероятно, должно быть настроено лучше, чтобы вы могли найти уникальные элементы только в том случае, если они действительно того стоят (возможно, len(b_flat) > 2 * num_possible_b или len(b_flat) > num_possible_b + CONSTANT). Похоже, это дает некоторое улучшение для больших массивов с меньшими значениями:

import numpy as np

# Test setup from @Divakar
np.random.seed(0)
a = np.random.randint(0, 9, (1000000, 2))
b = a[np.random.choice(len(a), 10000, replace=0)]
print(np.all(isin_rows(a, b) == isin_rows_opt(a, b)))
# True
%timeit isin_rows(a, b)
# 100 ms ± 425 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit isin_rows_opt(a, b)
# 81.2 ms ± 324 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

Эффективно удалить каждую строку массива, если он встречается в другом массиве в чистом виде

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Эффективно удалить каждую строку массива, если он встречается в другом массиве в чистом виде

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов