Чтение файла csv.gz в torchtext - PullRequest
0 голосов
/ 08 мая 2020

read_csv Pandas также работает с csv.gz.

Есть ли способ добиться подобного с PyTorch? https://torchtext.readthedocs.io/en/latest/data.html#torchtext .data.Dataset , похоже, не имеет такой опции.

1 Ответ

1 голос
/ 08 мая 2020

TL; DR: Нет, это не поддерживается TabularDataset

torchtext.data.TabularDataset использует csv.reader .

Использование csvreader для gzip-файла в Python предполагает, что если вы откроете файл с помощью gzip.open, csv.reader сможет его прочитать.

Однако TabularDataset запрашивает путь к файлу, а не указатель файла, поэтому, копаясь в исходном коде , он использует

io.open(os.path.expanduser(path), encoding="utf8")

, чтобы открыть путь к файлу. Поскольку .gz не является utf8, это не может правильно прочитать файл.

...