Я несколько раз наблюдал огромные изменения в скорости pandas функций при выполнении аналогичных (и, казалось бы, простых) операций. Например, из следующих трех первые два являются мучительно медленными при использовании набора данных с несколькими миллионами строк, в то время как последний работает в течение нескольких секунд (эти решения были взяты из конкатенации строк из двух pandas столбцов :
df["C"] = df[["A", "B"]].agg("/".join, axis = 1)
df = df.assign(C = df.apply(lambda row: row.A + "/" + row.B, axis = 1))
df["C"] = df.A + "/" + df.B
Это создает практическую проблему, заключающуюся в том, что код, протестированный на небольшом образце данных, может оказаться крайне неэффективным при попытке его на большем образце (возможно, кем-то другим).
Есть ли список медленных и быстрых pandas функций? Или, возможно, я не понимаю некоторые основные c факты о том, как pandas обрабатывает данные?