Таблица PyArrow: строки фильтра - PullRequest
1 голос
/ 17 июня 2020

У меня есть RecordBatch из хранилища данных Plasma, которое я могу прочитать в pyarrow.RecordBatch или pyarrow.Table. Теперь я пытаюсь отфильтровать строки перед преобразованием в pandas (to_pandas).

Есть ли способ использовать методы filter из нового API набора данных (который можно использовать в ParquetDataset) на pyarrow.Table? Это позволило бы мне использовать такой фильтр:

[[('date', '=', '2020-01-01')]]

Глядя на исходный код, как pyarrow.Table, так и pyarrow.RecordBatch, похоже, имеют функцию фильтрации, но как минимум RecordBatch требуется логическая маска.

Возможно ли это? Причина в том, что набор данных содержит множество строк (и / или категорий), которые не являются нулевыми копиями, поэтому запуск to_pandas на самом деле вызывает значительную задержку, и я каждый ищу только около 20% набора данных.

С уважением,
Никлас

...