Question

У меня есть массив numpy со значениями точек x и y.У меня есть другой массив, который содержит пары начального и конечного индексов.Первоначально эти данные были в пандах DataFrame, но, поскольку их было более 60 миллионов, алгоритм loc был очень медленным.Есть ли какой-нибудь быстрый способ разделить это?

import numpy as np
xy_array = np.arange(100).reshape(2,-1)
array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
       [50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66,
        67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83,
        84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]])

split_paris = [[0, 10], [10, 13], [13, 17], [20, 22]]

expected_result = [
    [[0, 1, 2, 3, 4, 5, 6, 7, 8, 9], [50, 51, 52, 53, 54, 55, 56, 57, 58, 59]],
    [[10, 11, 12], [60, 61, 62]],
    [[13, 14, 15, 16], [63, 64, 65, 66]],
    [[20, 21], [70, 71]]
]

Обновление: Не всегда следующая пара начинается с конца предыдущего.

zipa · Answer 1 · 11 октября 2018

Это будет сделано:

import numpy as np

xy_array = np.array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
                      17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
                      34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
                     [50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66,
                      67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83,
                      84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]])

split_paris = [[0, 10], [10, 13], [13, 17]]

expected_result = [xy_array[:, x:y] for x, y in split_paris]

expected_result
#[array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
#       [50, 51, 52, 53, 54, 55, 56, 57, 58, 59]]), array([[10, 11, 12],
#       [60, 61, 62]]), array([[13, 14, 15, 16],
#       [63, 64, 65, 66]])]

Используется индексирование среза в основном работает в смысле array[rows, columns], когда : принимает все строки и x:y получает столбцы из *От 1009 * до y.

Karol Vargas · Answer 2 · 11 октября 2018

вы всегда можете использовать функцию np.array_split, предоставленную numpy.и используйте нужные вам диапазоны

x = np.arange(8.0)
>>> np.array_split(x, 3)
[array([ 0.,  1.,  2.]), array([ 3.,  4.,  5.]), array([ 6.,  7.])]

Массив Numpy разбит на пары неправильных (начало, остановка)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Массив Numpy разбит на пары неправильных (начало, остановка)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов