Мне нужно создать переменную Firm_Age
. Я буду использовать пропущенные значения столбцов Total_equity
для расчета этой новой переменной. Формула будет простой период моего кадра данных, 21 год, минус количество пропущенных значений для Total_equity
для этой конкретной фирмы. Поскольку у меня более 200 000 наблюдений за 20 000 фирм, снимок экрана с фреймом данных , я надеялся сделать это с помощью Python. Однако, когда я наконец получил сумму пропущенных значений по фирме, он не вычислил правильное значение Firm_Age
Я сгруппировал фирмы по их названию (conm
) и подсчитал недостающие значения следующим кодом:
NA_df = firm.drop('conm', 1).isna().groupby(firm.conm, sort=True).sum().reset_index()
Когда я смотрю на значения в NA_df, они кажутся правильными. Даже когда я использую .describe()
для проверки общих значений.
Тем не менее, когда я пытаюсь рассчитать возраст с помощью:
firm['Age'] = 21 - NA_df['Total_equity']
единственного уникального значения, которое я получаю в firm['Age']
21. 21. 1018 *
Как я могу это исправить?