Я пытаюсь загрузить несколько файлов паркета из каталога в Python для тензорного потока / pytorch.
Файлы слишком велики для загрузки через функции pyarrow.parquet
import pyarrow.parquet as pq
dataset = pq.ParquetDataset('dir')
table = dataset.read()
Это дает out of memory error
.
Я также пытался использовать petastorm
, но это не работает для make_reader()
, потому что он не относится к типу petastorm
.
with make_batch_reader('dir') as reader:
dataset = make_petastorm_dataset(reader)
Когда я использовал make_batch_reader()
, а затем make_petastorm_dataset(reader)
, он снова дал zip not iterable error
или что-то в этом роде.
Я не уверен, как загрузить файл в Python для обучения ML. Немного быстрой помощи будет принята с благодарностью.
Спасибо, За sh