Эффективный ли в памяти способ реализации начальной загрузки в Python? - PullRequest
0 голосов
/ 01 февраля 2019

У меня есть набор данных, загруженный в память, и я хотел бы загрузиться с него.В настоящее время я использую sklearn resample реализацию по умолчанию.Я использую генератор для получения пакета начальной загрузки из набора данных, находящегося в памяти.

Однако, это невероятно много памяти, так как каждая итерация начальной загрузки создает новый массив.Есть ли более эффективный способ реализовать начальную загрузку с данных, хранящихся на диске или в памяти?

1 Ответ

0 голосов
/ 01 февраля 2019

Просто создайте индексы, которые будут разделять ваши исходные функции и цели и применять их каждый раз, когда вам понадобится набор данных с загрузочной привязкой.

Вот пример реализации с использованием набора данных sklearn boston:

import numpy as np
from sklearn.datasets import load_boston


def get_bootstrap_indices(dataset, datasets: int):
    for _ in range(datasets):
        yield np.random.choice(np.arange(len(dataset)), size=len(dataset), replace=True)


dataset = load_boston().data
print(f"Original dataset shape: {dataset.shape}")

for indices in get_bootstrap_indices(dataset, 10):
    print(dataset[indices].shape)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...