Возможно, этот вопрос уже задавался ранее, но у меня проблемы с поиском соответствующей информации для моей ситуации.
Я использую PyTorch для создания CNN для регрессии с данными изображения.У меня нет формального академического опыта программирования, поэтому многие из моих подходов являются специальными и просто ужасно неэффективными.Иногда я могу вернуться к своему коду и почистить вещи позже, потому что неэффективность не настолько существенна, что значительно влияет на производительность.Однако в этом случае мой метод использования данных изображения занимает много времени, использует много памяти и выполняется каждый раз, когда я хочу проверить изменение в модели.
Что я имеюГотово - это, по сути, загрузка данных изображения в массивные массивы, сохранение этих массивов в файле .npy, а затем, когда я хочу использовать указанные данные для модели, я импортирую все данные в этом файле.Я не думаю, что набор данных действительно такой большой, так как он состоит из 5000 изображений с 3 цветными каналами размером 64x64.Тем не менее, моя загрузка памяти увеличивается до 70-80% (из 16 ГБ), когда она загружается, и загрузка занимает каждый раз 20-30 секунд.
Я предполагаю, что я нахожусьтупо о том, как я загружаю его, но, честно говоря, я не уверен, что стандарт.Должен ли я каким-то образом поместить данные изображения куда-нибудь, прежде чем они мне понадобятся, или данные должны быть загружены непосредственно из файлов изображений?И в любом случае, какой самый лучший и самый эффективный способ сделать это, независимо от структуры файла?
Я был бы очень признателен за любую помощь в этом.