Почему sort_index во время группового индекса занимает относительно много времени? - PullRequest
0 голосов
/ 09 февраля 2019

У меня есть CSV-файл с около 2 миллионов строк.Этот CSV-файл имеет столбец, который я установил в качестве индекса (столбец A).Индекс теперь имеет 1,6 миллиона уникальных значений, распределенных по 12 разделам.Когда я делаю групповое применение к индексу , это занимает больше времени, чем 10 минут .Для одного файла это не проблема, но мне нужно сделать это для 600+ файлов.У меня такое ощущение, что я делаю что-то не так, но не могу определить узкое место, есть идеи?

График моей задачи: enter image description here

Поток задачвыглядит так: enter image description here

...