Не уверен, что этот вопрос имеет смысл / имеет отношение к zarr. Я храню данные zarr на диске в группах, поэтому, например, у меня есть
group = zarr.group()
d1 = group.create_dataset('baz', shape=100, chunks=10)
d2 = group.create_dataset('foo', shape=100, chunks=10)
Теперь группа итеративна, поэтому я могу перебирать ее и читать данные из всех групп:
all_data = [group[g][:] for g in group]
Есть ли способ прочитать все данные из групп, используя многопоточность, чтобы ускорить его? Я знаю, что в массиве вы можете использовать многопоточность для чтения и записи данных.
Предполагая, что чтение данных по группам слишком медленное для меня, я должен поместить все группы в один контейнер массива данных? Я думаю, мне интересно, какова функция групп, кроме организационного контейнера. Потому что, предполагая, что каждая группа содержит сходные данные, вы теоретически можете просто добавить еще одну ось в свой массив (для групп) и сохранить все группы в одном большом массиве.