У меня есть следующий код:
new_df = pd.DataFrame(columns=df.columns)
for i in list:
temp = df[df["customer id"]==i]
new_df = new_df.append(temp)
, где list
- это список идентификаторов клиентов, которые соответствуют критериям, выбранным ранее. Я использую фрейм данных temp
, потому что для одного и того же клиента существует несколько строк.
Я считаю, что умею кодировать, но никогда не учился кодировать для повышения эффективности больших данных. В этом случае df
содержит около 3 миллионов строк, а list
содержит около 100 000 элементов. Этот код работал более 24 часов и все еще не был выполнен, поэтому мне нужно спросить, что я делаю ужасно неправильно? Есть ли способ сделать этот код более эффективным?