Я пытаюсь вычислить квантили столбцов A и B из кадра данных df, но я хотел бы рассчитать различные квантили в соответствии с процентом пропущенного значения этих столбцов.
df = pd.DataFrame({'A': ['Bob', 'Jane', 'Alice', NA, NA, NA, 'Rob', 'Max'],
'B': ['Example', NA, NA, 'Test', 'Check', NA, NA, NA]})
Дополнительно, так какA и B представлены в символьном формате, я хотел бы сначала посчитать длину каждой строки для каждого столбца, чтобы
df_count = pd.DataFrame({'A': [3, 4, 5, 0, 0, 0, 3, 3],
'B': [7, 0, 0, 4, 5, 0, 0, 0]})
, и только затем вычислить квантили для новых значений A и B в соответствии спроцент пропущенных значений.
Например, если процент пропущенных значений столбца A превышает 90%, я бы хотел вычислить квантиль (0,99), иначе, если процент пропущенных значений столбцаA меньше 90%, я бы хотел вычислить квантиль (0,10).
В качестве последнего шага я бы записал значения квантилей в новый фрейм данных:
df_quant = pd.DataFrame({'A_quant': [quantile_value_for_A],
'B_quant': [quantile_value_for_B]})
Есть ли способ сделать это? Любая помощь будет принята с благодарностью.