В настоящее время Pandas имеет размер блока, чтобы ускорить обработку огромного количества данных из базы данных.
Я хочу сделать так, чтобы набор значений столбцов находился в одном фрагменте для анализа.
Из-за проблем с производительностью я не могу получить их сразу. Также приветствуется любой ответ, основанный на однократной выборке с высокой производительностью.
Пример:
col1 col2
1 a
2 a
3 a
4 b
2 b
1 b
3 b
5 c
2 c
3 c
Я хочу иметь значимые фрагменты на основе col2
Chunk1: Chunk2:
col1 col2 col1 col2
1 a 5 c
2 a 2 c
3 a 3 c
4 b
2 b
1 b
3 b
Если я укажу фрагмент как 5, он разделит guish на 2 фрагмента, b
значение col2
будет разделено посередине, и я не смогу выполнять вычисления для столбца 2.
Есть ли как это сделать?