Параллельное чтение файлов numpy * .npz (в идеале с использованием синтаксиса async / await) для повышения производительности - PullRequest
0 голосов
/ 02 марта 2020

У меня есть входной конвейер TensorFlow, который принимает .npz файлы, каждый из которых содержит пример. В группах по 5 я пишу их в TFRecords. Это медленно. Медлительность составляет np.load() из npz с, что составляет примерно 10 секунд для каждого файла ~ 50 МБ.

Поскольку у меня будет много .npz с, я бы хотел обрабатывать их параллельно. Я предполагаю, что np.load связан с вводом / выводом. Могу ли я использовать синтаксис async / await для ускорения загрузки? (tf.io.TFRecordWriter кажется достаточно быстрым, чтобы его игнорировать). Или вы бы предложили другой подход?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...