TL; DR: Нет, это не поддерживается TabularDataset
torchtext.data.TabularDataset использует csv.reader .
Использование csvreader для gzip-файла в Python предполагает, что если вы откроете файл с помощью gzip.open
, csv.reader сможет его прочитать.
Однако TabularDataset запрашивает путь к файлу, а не указатель файла, поэтому, копаясь в исходном коде , он использует
io.open(os.path.expanduser(path), encoding="utf8")
, чтобы открыть путь к файлу. Поскольку .gz не является utf8, это не может правильно прочитать файл.