Я создал ленивый загрузчик данных в Pytorch, используя linecache. Он извлекается из tsv-файла, который я также использую для создания словаря с помощью build_vocab Pytorch, поэтому мне нужно иметь строку заголовка с заголовками для каждого из столбцов.
Для набора данных я использую getitem:
def __getitem__(self, index):
"Generates one sample of data"
line = linecache.getline(self._filepath, index + 1)
Однако, поскольку linecache не загружает весь файл в память, нет очевидного способа пропустить первую строку / заголовок tsv файла. Я пробовал «if index == 0: pass», но это, очевидно, вернуло None, которое выдало другую ошибку.
Мое текущее решение состоит в том, чтобы просто иметь два tsv, один с заголовком, а другой без.