Внутри DataFrame у меня есть столбец «Состояния», который описывает, где произошли различные события, поэтому многие строки повторяются, а затем переходят в другое состояние:
States
- California
- California
- California
- California
- California
- New Mexico
- New Mexico
- New Mexico
- Hawaii
- California
Я пытаюсь запуститьФункция pandas, которая назначит переменную каждому состоянию, но будет уникальной для каждого изменения состояния. Таким образом, даже если состояния повторяются, они не получат того же значения, что и в последний раз, когда они находятся в списке. Из приведенного выше примера я получу:
new_column
- 1
- 1
- 1
- 1
- 1
- 2
- 2
- 2
- 3
- 4 #even though this is 'California', it's a new,unique value
В настоящее время я пробовал
def new_id(stateVal):
x = Kentucky #first state in the list that I'm comparing to
y = 1 #the unique value
if stateVal == x:
return y
elif stateVal != x:
x == w
y++
return y
else:
return 0
И не получил его, чтобы он работал должным образом, когда я применяю его к столбцу STATE вмой набор данныхЕсть ли в Pandas или NumPy предопределенная функция, чтобы помочь с этим?