DataLoader создает набор данных с помощью pytorch - PullRequest
0 голосов
/ 05 августа 2020

У меня есть папка с подпапками (классами) с изображениями внутри каждой подпапки.

data
  |_ classe1
        |_ image1
        |_ image2
  |_ classe2
        |_ ...

Моя цель - создать набор данных (поезд + тестовый набор) для обучения моей модели с помощью pytorch re snet. У меня есть ошибка, я не знаю, как ее решить, потому что я действительно не понимаю структуру DataLoader, поэтому я попробовал это:

У меня это:

dataset = {x: datasets.ImageFolder(os.path.join(data_dir, x), data_transforms[x]) for x in ['data']}

batch_size = 32
validation_split = .3
shuffle_dataset = True
random_seed= 42

# Creating data indices for training and validation splits:
dataset_size = len(dataset)
indices = list(range(dataset_size))
split = int(np.floor(validation_split * dataset_size))
if shuffle_dataset :
    np.random.seed(random_seed)
    np.random.shuffle(indices)
train_indices, val_indices = indices[split:], indices[:split]

# Creating PT data samplers and loaders:
train_sampler = SubsetRandomSampler(train_indices)
valid_sampler = SubsetRandomSampler(val_indices)

train_loader = torch.utils.data.DataLoader(dataset, batch_size=batch_size, 
                                           sampler=train_sampler)
validation_loader = torch.utils.data.DataLoader(dataset, batch_size=batch_size,
                                                sampler=valid_sampler)

dataloaders_dict = {'train': train_loader, 'val': validation_loader}

Но когда я попробуйте запустить мою модель, у меня эта ошибка:

Epoch 0/99
----------
---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-79-8c30eb5e6a01> in <module>()
      3 
      4 # Train and evaluate
----> 5 model_ft, hist = train_model(model_ft, dataloaders_dict, criterion, optimizer_ft, num_epochs=num_epochs, is_inception=False)

4 frames
<ipython-input-56-9421c2d39473> in train_model(model, dataloaders, criterion, optimizer, num_epochs, is_inception)
     22 
     23             # Iterate over data.
---> 24             for inputs, labels in dataloaders[phase]:
     25                 inputs = inputs.to(device)
     26                 labels = labels.to(device)

/usr/local/lib/python3.6/dist-packages/torch/utils/data/dataloader.py in __next__(self)
    361 
    362     def __next__(self):
--> 363         data = self._next_data()
    364         self._num_yielded += 1
    365         if self._dataset_kind == _DatasetKind.Iterable and \

/usr/local/lib/python3.6/dist-packages/torch/utils/data/dataloader.py in _next_data(self)
    401     def _next_data(self):
    402         index = self._next_index()  # may raise StopIteration
--> 403         data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
    404         if self._pin_memory:
    405             data = _utils.pin_memory.pin_memory(data)

/usr/local/lib/python3.6/dist-packages/torch/utils/data/_utils/fetch.py in fetch(self, possibly_batched_index)
     42     def fetch(self, possibly_batched_index):
     43         if self.auto_collation:
---> 44             data = [self.dataset[idx] for idx in possibly_batched_index]
     45         else:
     46             data = self.dataset[possibly_batched_index]

/usr/local/lib/python3.6/dist-packages/torch/utils/data/_utils/fetch.py in <listcomp>(.0)
     42     def fetch(self, possibly_batched_index):
     43         if self.auto_collation:
---> 44             data = [self.dataset[idx] for idx in possibly_batched_index]
     45         else:
     46             data = self.dataset[possibly_batched_index]

KeyError: 0

Есть предложения? Обнаружены какие-либо ошибки?

1 Ответ

0 голосов
/ 06 августа 2020

Проблема, скорее всего, связана с вашей первой строкой, где ваш dataset на самом деле является dict, содержащим один элемент (набор данных pytorch). Это было бы лучше:

x = 'data'
dataset = datasets.ImageFolder(os.path.join(data_dir, x), data_transforms[x])

Я предполагаю, что data_transforms['data'] - это преобразование ожидаемого типа (как подробно здесь ).

Ошибка ключа, вероятно, возникает, когда pytorch пытается получить тензор из вашего "набора данных" (dict), который просто содержит один элемент.

Кстати, я думаю, что pytorch предоставляет функции torch.utils.data.random_split`, чтобы вы не Не нужно делать сплит на поезд / тест самостоятельно. Вы можете найти его.

...