Question

Кто-нибудь когда-нибудь сталкивался с этой проблемой? Допустим, у вас есть два массива, как показано ниже

a = array([1,2,3,4,5,6])
b = array([1,4,5])

Есть ли способ сравнить, какие элементы в a существуют в b? Например,

c = a == b # Wishful example here
print c
array([1,4,5])
# Or even better
array([True, False, False, True, True, False])

Я стараюсь избегать петель, так как это займет целые годы с миллионами элементов Есть идеи?

Приветствия

eteq · Answer 1 · 08 декабря 2010

На самом деле, есть даже более простое решение, чем любое из них:

import numpy as np

a = array([1,2,3,4,5,6])
b = array([1,4,5])

c = np.in1d(a,b)

Результирующий c равен:

array([ True, False, False,  True,  True, False], dtype=bool)

unutbu · Answer 2 · 23 октября 2009

Используйте np.intersect1d.

#!/usr/bin/env python
import numpy as np
a = np.array([1,2,3,4,5,6])
b = np.array([1,4,5])
c=np.intersect1d(a,b)
print(c)
# [1 4 5]

Обратите внимание, что np.intersect1d дает неправильный ответ, если a или b имеют неуникальные элементы. В этом случае используйте np.intersect1d_nu.

Существует также np.setdiff1d, setxor1d, setmember1d и union1d. Увидеть Список примеров Numpy With Doc

Ants Aasma · Answer 3 · 23 октября 2009

Numpy имеет функцию set numpy.setmember1d (), которая работает с отсортированными и уникальными массивами и возвращает именно тот логический массив, который вам нужен. Если входные массивы не соответствуют критериям, вам необходимо преобразовать их в заданный формат и инвертировать преобразование результата.

import numpy as np
a = np.array([6,1,2,3,4,5,6])
b = np.array([1,4,5])

# convert to the uniqued form
a_set, a_inv = np.unique1d(a, return_inverse=True)
b_set = np.unique1d(b)
# calculate matching elements
matches = np.setmea_set, b_set)
# invert the transformation
result = matches[a_inv]
print(result)
# [False  True False False  True  True False]

Edit: К сожалению, метод setmember1d в numpy действительно неэффективен. Предложенный вами метод сортировки и назначения поиска работает быстрее, но если вы можете назначить напрямую, вы также можете назначить непосредственно результат и избежать большого количества ненужного копирования. Также ваш метод потерпит неудачу, если b содержит что-либо не в a. Следующее исправляет эти ошибки:

result = np.zeros(a.shape, dtype=np.bool)
idxs = a.searchsorted(b)
idxs = idxs[np.where(idxs < a.shape[0])] # Filter out out of range values
idxs = idxs[np.where(a[idxs] == b)] # Filter out where there isn't an actual match
result[idxs] = True
print(result)

Мои тесты показывают, что это 91us против 6,6 мс для вашего подхода и 109 мс для NumPy Setmember1d для 1M элемента a и 100 элемента b.

ebressert · Answer 4 · 23 октября 2009

Спасибо за ваш ответ kaizer.se. Это не совсем то, что я искал, но с предложением от друга и того, что вы сказали, я придумал следующее.

import numpy as np

a = np.array([1,4,5]).astype(np.float32)
b = np.arange(10).astype(np.float32)

# Assigning matching values from a in b as np.nan
b[b.searchsorted(a)] = np.nan

# Now generating Boolean arrays
match = np.isnan(b)
nonmatch = match == False

Это немного громоздкий процесс, но он лучше, чем писать циклы или использовать переплетение с циклами.

Приветствия

AFoglia · Answer 5 · 23 октября 2009

ebresset, ваш ответ не будет работать, если a не является подмножеством b (а a и b отсортированы). В противном случае поисковый запрос вернет ложные индексы. Я должен был сделать что-то подобное, и комбинировать это с вашим кодом:

# Assume a and b are sorted
idxs = numpy.mod(b.searchsorted(a),len(b))
idxs = idxs[b[idxs]==a]
b[idxs] = numpy.nan
match = numpy.isnan(b)

u0b34a0f6ae · Answer 6 · 23 октября 2009

Ваш пример подразумевает поведение, подобное множеству, заботясь о существовании в массиве , чем о наличии нужного элемента в нужном месте. Numpy делает это по-разному со своими математическими массивами и матрицами, он расскажет вам только об элементах в нужном месте. Можете ли вы сделать эту работу для вас?

>>> import numpy
>>> a = numpy.array([1,2,3])
>>> b = numpy.array([1,3,3])
>>> a == b
array([ True, False,  True], dtype=bool)

NumPy: сравнение элементов в двух массивах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

NumPy: сравнение элементов в двух массивах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов