Я настраиваю кодовую базу, которая манипулирует очень большими фреймами данных pandas, и создаю дополнительные столбцы, используя настраиваемые функции.Я не уверен, должен ли я использовать numpy.where, numpy.select для столбцов или пытаться использовать множественное понимание списка условий или способ применения столбцов с множественными числами к пользовательской функции.
По сути, я пытаюсь придумать идеальный способ настроить код для максимальной вычислительной / временной эффективности.
Я работал с функциями, которые работают следующим образом:
def(x):
return np.where(x > 5, x, 0)
и понял, что это супер неэффективно после синхронизации, потому что numpy становится более эффективным для столбцов в целом.
см. Выше