Question

У меня есть набор данных, загруженный в память, и я хотел бы загрузиться с него.В настоящее время я использую sklearn resample реализацию по умолчанию.Я использую генератор для получения пакета начальной загрузки из набора данных, находящегося в памяти.

Однако, это невероятно много памяти, так как каждая итерация начальной загрузки создает новый массив.Есть ли более эффективный способ реализовать начальную загрузку с данных, хранящихся на диске или в памяти?

Szymon Maszke · Answer 1 · 01 февраля 2019

Просто создайте индексы, которые будут разделять ваши исходные функции и цели и применять их каждый раз, когда вам понадобится набор данных с загрузочной привязкой.

Вот пример реализации с использованием набора данных sklearn boston:

import numpy as np
from sklearn.datasets import load_boston


def get_bootstrap_indices(dataset, datasets: int):
    for _ in range(datasets):
        yield np.random.choice(np.arange(len(dataset)), size=len(dataset), replace=True)


dataset = load_boston().data
print(f"Original dataset shape: {dataset.shape}")

for indices in get_bootstrap_indices(dataset, 10):
    print(dataset[indices].shape)

Эффективный ли в памяти способ реализации начальной загрузки в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Эффективный ли в памяти способ реализации начальной загрузки в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов