Я пытаюсь установить кросс-таблицу для проверки гипотез. Я разделил полную выборку, выполнив / неработающие кредиты. Я хочу составить таблицу среднего значения и медианы для полной выборки и обеих подвыборок. Затем я хочу сравнить средства выборки, чтобы проверить, значительно ли они отличаются, с помощью t-теста и [WMW test] [1]. Как я могу написать это на Python? Финальным результатом должен быть вывод таблицы в формате .csv.
Я работал с пандами для сводных таблиц и кросс-таблицы. Сципи, кажется, предлагает всю необходимую статистику. Я посмотрел на сюжет и черту для сложных таблиц.
Я хочу составить таблицу среднего и медианного значения для полной выборки и обеих подвыборок. Затем я хочу сравнить средства подвыборки, чтобы проверить, значительно ли они отличаются с помощью t-теста и WMW-теста. Как я могу написать это на Python? Финальным результатом должен быть вывод таблицы в формате CSV.
Столбцы данных являются атрибутами ссуды от Lending Club:
- сумма кредита
- процентная ставка и т. д.
Целевая переменная столбца «мертвый» -> по умолчанию или не по умолчанию, разделяет выборки.
Всего 230к наблюдений.