Question

Я хочу тренировать модель, и у меня есть большой набор данных для обучения.Его размер составляет более 20 ГБ.Но когда я пытаюсь это прочитать, это заняло так много времени.Я имею в виду загрузить его в память.

with open(file_path, newline='', encoding='utf-8') as f:
    reader = csv.reader(f)
    for i,row in enumerate(islice(reader,0,1)):
        train_data = np.array(makefloat(row))[None,:]
    for i,row in enumerate(reader):
        train_data = np.vstack((train_data,np.array(makefloat(row))[None,:]))

У него есть 43 числа с плавающей запятой для каждой строки.

Это заняло так много времени, я протестировал его всего на 100 000 строк, и это заняло 20 минут.

Я думаю, что делаю не так.Как я могу сделать это быстрее?

sky · Answer 1 · 25 февраля 2019

Это не хорошо, чтобы прочитать весь файл.Вы можете использовать что-то вроде Dask, которое будет читать ваши файлы по частям и будет быстрее. Даск

Какой самый быстрый способ загрузить файл, используя python и numpy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой самый быстрый способ загрузить файл, используя python и numpy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы