Я использую библиотеку Pyarrow для оптимального хранения Pandas DataFrame. Мне нужно обработать pyarrow Table строка за строкой как можно быстрее, не преобразовывая его в pandas DataFrame (он не помещается в памяти). У Панд есть методы iterrows () / iterrtuples (). Есть ли быстрый способ итерации таблицы Пиарроу, кроме адресации цикла и индекса?
Этот код работал для меня:
for batch in table.to_batches(): d = batch.to_pydict() for c1, c2, c3 in zip(d['c1'], d['c2'], d['c3']): # Do something with the row of c1, c2, c3
Программное обеспечение на данный момент не оптимизировано для данного варианта использования. Я бы порекомендовал использовать Cython или C ++ или взаимодействовать с данными построчно. Если у вас есть дополнительные вопросы, обратитесь в список рассылки для разработчиков dev@arrow.apache.org