Для того, чтобы провести значимое сравнение по территориям, я хотел бы нормализовать случаи, подтвержденные COVID-19, по дате начала вспышки в разных странах. Для любой территории день, когда эта территория достигает или превышает 10 подтвержденных случаев, считается «днем 0 вспышки».
Пример кадра данных:
[in]
import pandas as pd
confirmed_cases = {'Date':['1/22/20', '1/23/20', '1/24/20', '1/25/20', '1/26/20'], 'Australia':[0, 0, 0, 30, 50], 'Albania':[0, 20, 25, 30, 50], 'Algeria':[25, 40, 50, 50, 70]}
df = pd.DataFrame(confirmed_cases)
df
[out]
Date Australia Albania Algeria
0 1/22/20 0 0 25
1 1/23/20 0 20 40
2 1/24/20 0 25 50
3 1/25/20 30 30 50
4 1/26/20 50 50 70
Желаемые результаты:
Day Since Outbreak Australia Albania Algeria
0 0 30 20 25
1 1 50 25 40
2 2 NaN 30 50
3 3 NaN 50 50
4 4 NaN NaN 70
Есть ли способы выполнить эту задачу с помощью простых строк кода Python / Panda?