Медленные и быстрые pandas функции (добавление строк в два столбца) - PullRequest
2 голосов
/ 06 апреля 2020

Я несколько раз наблюдал огромные изменения в скорости pandas функций при выполнении аналогичных (и, казалось бы, простых) операций. Например, из следующих трех первые два являются мучительно медленными при использовании набора данных с несколькими миллионами строк, в то время как последний работает в течение нескольких секунд (эти решения были взяты из конкатенации строк из двух pandas столбцов :

        df["C"] = df[["A", "B"]].agg("/".join, axis = 1)
        df = df.assign(C = df.apply(lambda row: row.A + "/" + row.B, axis = 1))
        df["C"] = df.A + "/" + df.B

Это создает практическую проблему, заключающуюся в том, что код, протестированный на небольшом образце данных, может оказаться крайне неэффективным при попытке его на большем образце (возможно, кем-то другим).

Есть ли список медленных и быстрых pandas функций? Или, возможно, я не понимаю некоторые основные c факты о том, как pandas обрабатывает данные?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...