У меня есть два огромных файла hdf5, каждый с индексом идентификаторов, каждый из которых содержит различную информацию о каждом из этих идентификаторов.
Я прочитал один файл в небольшом замаскированном наборе данных (данных), используя только выберите несколько идентификаторов. Теперь я хочу добавить к набору данных, используя информацию об этих выбранных идентификаторах из одного столбца ('a') второго файла hdf5 (s_data).
В настоящее время мне приходится читать весь 2-й файл hdf5 и выберите идентификаторы, которые соответствуют, в соответствии с:
for i in range(len(data['ids'])):
print(i)
data['a'][i] = s_data['a'][s_data['ids'] == data['ids'][i]]
Теперь для 190 миллионов идентификаторов это занимает слишком много времени. Есть ли более простой способ сопоставить их? Я думаю о соединении в стиле pandas, однако я не могу найти способ для этого работать с наборами данных h5py.
Заранее большое спасибо!