Мне нужно получить график кривой Лоренца для кумулятивной переменной как функции количества наблюдений. Я хочу, чтобы обе оси отображались в процентном отношении (например, например, наблюдения - это количество покупателей, а переменная y - это сумма, которую они купили, покупатели уже ранжированы в порядке убывания, я хочу получить график, который говорит: % покупателей приобрели 90% от общего количества купленных "). Мой набор данных - пара миллионов наблюдений.
Каков наилучший способ сделать это? Подразделы вопросы:
Если мне нужно добавить две переменные для квантилей общего количества наблюдений и общего количества купленных $ (чтобы использовать их для построения графика), что это за объект, который возвращает номер строки? Я попробовал:
user_quantile <- row(df)/nrow(df)
но я получаю матрицу идентичных столбцов (user_quantile.1, user_quantile.2), из которых мне нужен только один столбец.
Есть ли способ пропустить добавление процентов в качестве переменных и использовать их только для значений осей?
Сюжет имеет много точек, чем мне нужно, чтобы получить линию. Каков наилучший подход для минимизации вычислительных затрат и получения хорошего графика?
Спасибо.