Так что я знаю, что это не самый лучший вариант, я знаю о деревьях, RF и xgboost лучше, но мне нужно знать, возможно ли это.
У меня 272 комбинации препаратов от гипертонии, предоставленных на первичный уровень здоровья и миллион пациентов. Некоторые из них перенесли инфаркт миокарда, а некоторые нет. Я хочу знать, может ли какая-либо комбинация вызвать инфаркт миокарда. Кроме того, корректируясь по возрасту, полу, годам эволюции и некоторым другим переменным.
В SPSS я знаю, как сделать это один за другим, но в Python с использованием дистрибутива Anaconda, как я могу это сделать? комбинация лекарств - качественная номинальная переменная, а инфаркт миокарда - номинальная дихотомия.
Я не смог попробовать дальше от:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(XT,Y)
, который, я думаю, является чистым необработанным LR. Кроме того, я хотел бы знать, считаете ли вы, что это правильный тест?