Использование следующего тестового фрейма данных, содержащего двоичные переменные 0/1:
test_df = pd.DataFrame([
[0, 0, 0, 1],
[1, 0, 1, 1],
[0, 0, 0, 1],
[1, 0, 1, 0],
[0, 0, 0, 0],
[1, 0, 1, 0]], columns=["y", "age_catg", "race_catg", "sex_catg"])
Я бы хотел использовать функцию pd.crosstab()
для создания двусторонних таблиц y против age_catg, race_catg, sex_catg, чтобы проверить полное разделение значений y между категориями предикторов.
Мой фактический фрейм данных содержит несколько тысяч предикторов, поэтому вместо того, чтобы явно указывать предикторы возраста, расы и пола, я бы предпочел использовать столбцы #. Тем не менее, я все еще путаю со ссылками на строки и столбцы в Python - например, следующий код не работает:
desc_tab = pd.crosstab(test_df[:,1], test_df[:,2:4])
desc_tab