У меня есть RecordBatch
из хранилища данных Plasma, которое я могу прочитать в pyarrow.RecordBatch
или pyarrow.Table
. Теперь я пытаюсь отфильтровать строки перед преобразованием в pandas (to_pandas
).
Есть ли способ использовать методы filter
из нового API набора данных (который можно использовать в ParquetDataset) на pyarrow.Table
? Это позволило бы мне использовать такой фильтр:
[[('date', '=', '2020-01-01')]]
Глядя на исходный код, как pyarrow.Table
, так и pyarrow.RecordBatch
, похоже, имеют функцию фильтрации, но как минимум RecordBatch
требуется логическая маска.
Возможно ли это? Причина в том, что набор данных содержит множество строк (и / или категорий), которые не являются нулевыми копиями, поэтому запуск to_pandas
на самом деле вызывает значительную задержку, и я каждый ищу только около 20% набора данных.
С уважением,
Никлас