Question

У меня есть два массива разной формы, но одинаковой длины (начальный размер). Я хочу перетасовать каждый из них так, чтобы соответствующие элементы продолжали соответствовать - т.е. перетасовывать их в унисон по отношению к их ведущим индексам.

Этот код работает и иллюстрирует мои цели:

def shuffle_in_unison(a, b):
    assert len(a) == len(b)
    shuffled_a = numpy.empty(a.shape, dtype=a.dtype)
    shuffled_b = numpy.empty(b.shape, dtype=b.dtype)
    permutation = numpy.random.permutation(len(a))
    for old_index, new_index in enumerate(permutation):
        shuffled_a[new_index] = a[old_index]
        shuffled_b[new_index] = b[old_index]
    return shuffled_a, shuffled_b

Например:

>>> a = numpy.asarray([[1, 1], [2, 2], [3, 3]])
>>> b = numpy.asarray([1, 2, 3])
>>> shuffle_in_unison(a, b)
(array([[2, 2],
       [1, 1],
       [3, 3]]), array([2, 1, 3]))

Однако это кажется неуклюжим, неэффективным и медленным, и требует создания копии массивов - я бы предпочел перетасовать их на месте, поскольку они будут довольно большими.

Есть ли лучший способ сделать это? Мои основные цели - более быстрое выполнение и меньшее использование памяти, но элегантный код тоже подойдет.

Еще одна мысль, которая у меня была:

def shuffle_in_unison_scary(a, b):
    rng_state = numpy.random.get_state()
    numpy.random.shuffle(a)
    numpy.random.set_state(rng_state)
    numpy.random.shuffle(b)

Это работает ... но это немного страшно, так как я вижу мало гарантий, что оно продолжит работать - это не похоже на то, что гарантированно выживет, например, в простой версии.

mtrw · Answer 1 · 05 января 2011

Вы можете использовать индексирование массива NumPy :

def unison_shuffled_copies(a, b):
    assert len(a) == len(b)
    p = numpy.random.permutation(len(a))
    return a[p], b[p]

Это приведет к созданию отдельных массивов в случайном порядке.

James · Answer 2 · 04 июня 2015

X = np.array([[1., 0.], [2., 1.], [0., 0.]])
y = np.array([0, 1, 2])
from sklearn.utils import shuffle
X, y = shuffle(X, y, random_state=0)

Чтобы узнать больше, см. http://scikit -learn.org / stable / modules / generate / sklearn.utils.shuffle.html

Sven Marnach · Answer 3 · 05 января 2011

Ваше "страшное" решение не кажется мне пугающим.Вызов shuffle() для двух последовательностей одинаковой длины приводит к одинаковому количеству вызовов к генератору случайных чисел, и это единственные «случайные» элементы в алгоритме случайного перемешивания.Сбрасывая состояние, вы гарантируете, что вызовы генератора случайных чисел дадут одинаковые результаты при втором вызове shuffle(), поэтому весь алгоритм будет генерировать одну и ту же перестановку.

Если вы этого не сделаететаким образом, другое решение будет хранить ваши данные в одном массиве вместо двух с самого начала и создавать два представления в этом едином массиве, имитируя два имеющихся у вас массива.Вы можете использовать один массив для перетасовки и представления для всех других целей.

Пример: предположим, что массивы a и b выглядят так:

a = numpy.array([[[  0.,   1.,   2.],
                  [  3.,   4.,   5.]],

                 [[  6.,   7.,   8.],
                  [  9.,  10.,  11.]],

                 [[ 12.,  13.,  14.],
                  [ 15.,  16.,  17.]]])

b = numpy.array([[ 0.,  1.],
                 [ 2.,  3.],
                 [ 4.,  5.]])

Мы можемТеперь создайте один массив, содержащий все данные:

c = numpy.c_[a.reshape(len(a), -1), b.reshape(len(b), -1)]
# array([[  0.,   1.,   2.,   3.,   4.,   5.,   0.,   1.],
#        [  6.,   7.,   8.,   9.,  10.,  11.,   2.,   3.],
#        [ 12.,  13.,  14.,  15.,  16.,  17.,   4.,   5.]])

Теперь мы создадим представления, имитирующие исходные a и b:

a2 = c[:, :a.size//len(a)].reshape(a.shape)
b2 = c[:, a.size//len(a):].reshape(b.shape)

Данные a2 иb2 используется совместно с c.Чтобы перетасовать оба массива одновременно, используйте numpy.random.shuffle(c).

. В рабочем коде вы, конечно, постараетесь вообще не создавать оригинальные a и b и сразу же создайте c, * 1029.* и b2.

Это решение может быть адаптировано к случаю, когда a и b имеют разные dtypes.

connor · Answer 4 · 08 июня 2016

Очень простое решение:

randomize = np.arange(len(x))
np.random.shuffle(randomize)
x = x[randomize]
y = y[randomize]

два массива x, y теперь оба случайно перемешаны одинаково

Daniel · Answer 5 · 30 мая 2018

Джеймс написал в 2015 году sklearn решение , что полезно. Но он добавил случайную переменную состояния, которая не нужна. В приведенном ниже коде случайное состояние из numpy принимается автоматически.

X = np.array([[1., 0.], [2., 1.], [0., 0.]])
y = np.array([0, 1, 2])
from sklearn.utils import shuffle
X, y = shuffle(X, y)

Isaac B · Answer 6 · 25 июля 2018

Перемешайте любое количество массивов на месте, используя только NumPy.

import numpy as np


def shuffle_arrays(arrays, set_seed=-1):
    """Shuffles arrays in-place, in the same order, along axis=0

    Parameters:
    -----------
    arrays : List of NumPy arrays.
    set_seed : Seed value if int >= 0, else seed is random.
    """
    assert all(len(arr) == len(arrays[0]) for arr in arrays)
    seed = np.random.randint(0, 2**(32 - 1) - 1) if set_seed < 0 else set_seed

    for arr in arrays:
        rstate = np.random.RandomState(seed)
        rstate.shuffle(arr)

И можете использовать вот так

a = np.array([1, 2, 3, 4, 5])
b = np.array([10,20,30,40,50])
c = np.array([[1,10,11], [2,20,22], [3,30,33], [4,40,44], [5,50,55]])

shuffle_arrays([a, b, c])

Несколько замечаний:

Утверждение гарантирует, что все входные массивы будут иметь одинаковую длину вдоль их первого измерения.
Массивы перетасовываются на месте своим первым измерением - ничего не возвращается.
Случайное начальное числов пределах положительного диапазона int32.
Если требуется повторяющееся перемешивание, можно установить начальное значение.

После перемешивания данные можно разделить с помощью np.split или ссылаться на срезы- в зависимости от применения.

mohammad hassan bigdeli shamlo · Answer 7 · 01 апреля 2018

вы можете создать массив вроде:

s = np.arange(0, len(a), 1)

и затем перемешать его:

np.random.shuffle(s)

теперь используйте этот s в качестве аргумента ваших массивов.одни и те же перемешанные аргументы возвращают одинаковые перемешанные векторы.

x_data = x_data[s]
x_label = x_label[s]

benjaminjsanders · Answer 8 · 26 марта 2019

from np.random import permutation
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data #numpy array
y = iris.target #numpy array

# Data is currently unshuffled; we should shuffle 
# each X[i] with its corresponding y[i]
perm = permutation(len(X))
X = X[perm]
y = y[perm]

sziraqui · Answer 9 · 07 ноября 2018

Существует хорошо известная функция, которая может справиться с этим:

from sklearn.model_selection import train_test_split
X, _, Y, _ = train_test_split(X,Y, test_size=0.0)

Просто установив test_size в 0, вы избежите разбиения и получите перемешанные данные.Хотя обычно он используется для разделения данных поезда и теста, он также перетасовывает их.
Из документации

Разделение массивов или матриц на случайные подмножества поезда и теста

Быстрая утилита, которая упаковывает проверку ввода и затем (ShuffleSplit (). Split (X, y)) и приложение для ввода данных в один вызов для разделения (и, возможно, подвыборки) данных в oneliner.

Adam Snaider · Answer 10 · 01 декабря 2017

Один из способов перетасовки на месте для связанных списков - это использование начального числа (оно может быть случайным) и использование numpy.random.shuffle для выполнения перетасовки.

# Set seed to a random number if you want the shuffling to be non-deterministic.
def shuffle(a, b, seed):
   np.random.seed(seed)
   np.random.shuffle(a)
   np.random.seed(seed)
   np.random.shuffle(b)

Вот и все,Это перетасует и a, и b точно таким же образом.Это также делается на месте, что всегда является плюсом.

EDIT, не используйте np.random.seed (), используйте вместо него np.random.RandomState

def shuffle(a, b, seed):
   rand_state = np.random.RandomState(seed)
   rand_state.shuffle(a)
   rand_state.seed(seed)
   rand_state.shuffle(b)

При вызовеон просто передается в любое начальное число для подачи случайного состояния:

a = [1,2,3,4]
b = [11, 22, 33, 44]
shuffle(a, b, 12345)

Вывод:

>>> a
[1, 4, 2, 3]
>>> b
[11, 44, 22, 33]

Редактировать: Исправлен код для повторного заполнения случайного состояния

Лучший способ перетасовать два массива в унисон

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 14 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

EDIT, не используйте np.random.seed (), используйте вместо него np.random.RandomState

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучший способ перетасовать два массива в унисон

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 14 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

EDIT, не используйте np.random.seed (), используйте вместо него np.random.RandomState

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы