Самый быстрый способ перебора таблицы Pyarrow - PullRequest
0 голосов
/ 05 ноября 2018

Я использую библиотеку Pyarrow для оптимального хранения Pandas DataFrame. Мне нужно обработать pyarrow Table строка за строкой как можно быстрее, не преобразовывая его в pandas DataFrame (он не помещается в памяти). У Панд есть методы iterrows () / iterrtuples (). Есть ли быстрый способ итерации таблицы Пиарроу, кроме адресации цикла и индекса?

Ответы [ 2 ]

0 голосов
/ 11 апреля 2019

Этот код работал для меня:

for batch in table.to_batches():
    d = batch.to_pydict()
    for c1, c2, c3 in zip(d['c1'], d['c2'], d['c3']):
        # Do something with the row of c1, c2, c3
0 голосов
/ 06 ноября 2018

Программное обеспечение на данный момент не оптимизировано для данного варианта использования. Я бы порекомендовал использовать Cython или C ++ или взаимодействовать с данными построчно. Если у вас есть дополнительные вопросы, обратитесь в список рассылки для разработчиков dev@arrow.apache.org

...