Загрузка больших наборов данных из файла HDF5 с помощью Python - PullRequest
0 голосов
/ 25 августа 2018

У меня есть несколько файлов наборов данных с ~ 20 миллионами точек данных (размер ~ 32 ГБ).Есть ли хороший способ быстрой загрузки данных?Я хочу загрузить данные, чтобы создать два файла hdf5 для обучения нейронной сети.

Редактировать: В настоящее время я загружаю данные с помощью

for File in FilesToLoad
     DataFile = h5py.File(File , "r")
     Label = list(DataFile.get("Label"))

for Item in Label:
    if(not(Item in ClassLabels)):
          ClassLabels.append(Item)

Программа занимает много времени в "Label= список (...) ".Второй цикл for - это создание списка уникальных меток из всех моих меток, чтобы я мог использовать Labelencoder для их кодирования.Это тоже занимает много времени.Есть ли более эффективный способ выбрать уникальные значения из большого списка?

...