У меня есть несколько файлов наборов данных с ~ 20 миллионами точек данных (размер ~ 32 ГБ).Есть ли хороший способ быстрой загрузки данных?Я хочу загрузить данные, чтобы создать два файла hdf5 для обучения нейронной сети.
Редактировать: В настоящее время я загружаю данные с помощью
for File in FilesToLoad
DataFile = h5py.File(File , "r")
Label = list(DataFile.get("Label"))
for Item in Label:
if(not(Item in ClassLabels)):
ClassLabels.append(Item)
Программа занимает много времени в "Label= список (...) ".Второй цикл for - это создание списка уникальных меток из всех моих меток, чтобы я мог использовать Labelencoder для их кодирования.Это тоже занимает много времени.Есть ли более эффективный способ выбрать уникальные значения из большого списка?