Построение набора Python из матрицы Numpy - PullRequest
17 голосов
/ 21 декабря 2009

Я пытаюсь выполнить следующее

>> from numpy import *
>> x = array([[3,2,3],[4,4,4]])
>> y = set(x)
TypeError: unhashable type: 'numpy.ndarray'

Как мне легко и эффективно создать набор со всеми элементами из массива Numpy?

Ответы [ 6 ]

26 голосов
/ 21 декабря 2009

Если вам нужен набор элементов, вот еще один, возможно, более быстрый способ:

y = set(x.flatten())

PS: после сравнения x.flat, x.flatten() и x.ravel() на массиве 10x100 я обнаружил, что все они работают примерно с одинаковой скоростью. Для массива 3x3 самой быстрой версией является версия итератора:

y = set(x.flat)

, который я бы рекомендовал, потому что это менее дорогая версия памяти (она хорошо масштабируется с размером массива).

PS : есть также функция NumPy, которая выполняет нечто подобное:

y = numpy.unique(x)

В результате получается массив NumPy с тем же элементом, что и set(x.flat), но в виде массива NumPy. Это очень быстро (почти в 10 раз быстрее), но если вам нужен set, тогда выполнение set(numpy.unique(x)) будет немного медленнее, чем в других процедурах (создание набора требует больших накладных расходов).

14 голосов
/ 21 декабря 2009

Неизменным аналогом массива является кортеж, поэтому попробуйте преобразовать массив массивов в массив кортежей:

>> from numpy import *
>> x = array([[3,2,3],[4,4,4]])

>> x_hashable = map(tuple, x)

>> y = set(x_hashable)
set([(3, 2, 3), (4, 4, 4)])
7 голосов
/ 02 марта 2011

Ответы выше работают, если вы хотите создать набор из элементов , содержащихся в ndarray, но если вы хотите создать набор ndarray объектов - или использовать ndarray объекты как ключи в словаре - тогда вам нужно будет предоставить для них хешируемую оболочку. Посмотрите код ниже для простого примера:

from hashlib import sha1

from numpy import all, array, uint8


class hashable(object):
    r'''Hashable wrapper for ndarray objects.

        Instances of ndarray are not hashable, meaning they cannot be added to
        sets, nor used as keys in dictionaries. This is by design - ndarray
        objects are mutable, and therefore cannot reliably implement the
        __hash__() method.

        The hashable class allows a way around this limitation. It implements
        the required methods for hashable objects in terms of an encapsulated
        ndarray object. This can be either a copied instance (which is safer)
        or the original object (which requires the user to be careful enough
        not to modify it).
    '''
    def __init__(self, wrapped, tight=False):
        r'''Creates a new hashable object encapsulating an ndarray.

            wrapped
                The wrapped ndarray.

            tight
                Optional. If True, a copy of the input ndaray is created.
                Defaults to False.
        '''
        self.__tight = tight
        self.__wrapped = array(wrapped) if tight else wrapped
        self.__hash = int(sha1(wrapped.view(uint8)).hexdigest(), 16)

    def __eq__(self, other):
        return all(self.__wrapped == other.__wrapped)

    def __hash__(self):
        return self.__hash

    def unwrap(self):
        r'''Returns the encapsulated ndarray.

            If the wrapper is "tight", a copy of the encapsulated ndarray is
            returned. Otherwise, the encapsulated ndarray itself is returned.
        '''
        if self.__tight:
            return array(self.__wrapped)

        return self.__wrapped

Использовать класс-оболочку достаточно просто:

>>> from numpy import arange

>>> a = arange(0, 1024)
>>> d = {}
>>> d[a] = 'foo'
Traceback (most recent call last):
  File "<input>", line 1, in <module>
TypeError: unhashable type: 'numpy.ndarray'
>>> b = hashable(a)
>>> d[b] = 'bar'
>>> d[b]
'bar'
3 голосов
/ 21 декабря 2009

Если вы хотите набор элементов:

>> y = set(e for r in x
             for e in r)
set([2, 3, 4])

Для набора строк:

>> y = set(tuple(r) for r in x)
set([(3, 2, 3), (4, 4, 4)])
0 голосов
/ 10 ноября 2018

Добавление к @Eric Lebigot и его великому посту.

Следующие хитрости помогли построить тензорную таблицу поиска:

a = np.array([[1, 0, 0], [1, 0, 0], [2, 3, 4]])
np.unique(a, axis=0)

выход:

array([[1, 0, 0], [2, 3, 4]])

np.unique документация

0 голосов
/ 22 мая 2018

Мне понравилась идея xperroni . Но я думаю, что реализацию можно упростить, используя прямое наследование от ndarray вместо его переноса.

from hashlib import sha1
from numpy import ndarray, uint8, array

class HashableNdarray(ndarray):
    def __hash__(self):
        if not hasattr(hasattr, '__hash'):
            self.__hash = int(sha1(self.view(uint8)).hexdigest(), 16)
        return self.__hash

    def __eq__(self, other):
        if not isinstance(other, HashableNdarray):
            return super(HashableNdarray, self).__eq__(other)
        return super(HashableNdarray, self).__eq__(super(HashableNdarray, other)).all()

NumPy ndarray можно рассматривать как производный класс и использовать как хешируемый объект. view(ndarray) можно использовать для обратного преобразования, но в большинстве случаев оно даже не требуется.

>>> a = array([1,2,3])
>>> b = array([2,3,4])
>>> c = array([1,2,3])
>>> s = set()

>>> s.add(a.view(HashableNdarray))
>>> s.add(b.view(HashableNdarray))
>>> s.add(c.view(HashableNdarray))
>>> print(s)
{HashableNdarray([2, 3, 4]), HashableNdarray([1, 2, 3])}
>>> d = next(iter(s))
>>> print(d == a)
[False False False]
>>> import ctypes
>>> print(d.ctypes.data_as(ctypes.POINTER(ctypes.c_double)))
<__main__.LP_c_double object at 0x7f99f4dbe488>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...