Улучшение pandas производительности при работе с подмножествами - PullRequest
0 голосов
/ 21 марта 2020

Надеюсь, что в этот трудный момент у всех все в порядке.

У меня есть вопрос, может ли кто-нибудь мне помочь.

У меня есть следующий код, который делается с Pandas чтобы проверить, достаточно ли в Dataframe данных для начала вычислений:

def testa_liga(dados,data,liga,minimo_jogos):

    criterio = (dados["liga"] == liga) & (dados["data"] < data)
    dados = dados[criterio]
    dados = dados.sort_values(by=["data"],ascending=False)
    quantidade = len(dados.index)

    if quantidade >= minimo_jogos:

        minimo = True

    else:

        minimo = False

    return minimo

Не только это, но я выполняю такие операции для многих других проверок.

Поэтому мой вопрос: есть ли способ сделать это быстрее?

Pandas оказывается настолько медленным, что я подумываю использовать списки для этой задачи.

Спасибо!

Редактировать :

Мой фрейм данных выглядит так:

   liga       data         home      away    p1  p2  oddh  oddd   odda  
0  SP1     2007-11-03     Mallorca  Valencia  0   2  2.65  3.32   2.85 
.................. 

1 Ответ

0 голосов
/ 23 марта 2020

Использовал пользовательскую функцию для выполнения тех же вычислений и фильтрации.

Кажется, это гораздо более эффективный способ решения больших вычислений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...