Следуя примерам iris DataSets, я попытался сделать свою первую логистическую регрессию.Мой X - это количество слов в предложении, и я хотел бы (с помощью других параметров, но позже) найти вероятность того, что предложение должно иметь определенный термин (именованные объекты).
Итак, в моей статистике есть несколько предложений, в которых есть только 15 слов, или предложения с 80 словами, в которых его нет.Только с этим параметром это кажется немного случайным.Не настоящее правило.
Я что-то не так делаю?Или мы можем оправдать эти плохие результаты только параметром «недостаточно хорошо»?Все это заставляет меня думать, что логистическая регрессия - это всего лишь статистика (я думаю, что на самом деле это правда, но я потерян)
Вот почему в моей Логистической регрессии я обнаруживаю
log_reg.score(X,y) = 0.7666
(не очень хорошо понимал, что это значит)
и с этим:
X_new = np.linspace(20, 80,150).reshape(150,1) #150 Sentences between 20 and 80 words
y_proba = log_reg.predict_proba(X_new)
decision_boundary = X_new[y_proba[:, 1] >= 0.5][0]
Я получил [68.32214765] за границу решения с максимальным% 0,57 ...
Я что-то не так делаю?Или мы можем оправдать эти плохие результаты только параметром «недостаточно хорошо»?
Все это заставляет меня думать, что логистическая регрессия - это всего лишь статистика (я думаю, что на самом деле это правда, но я потерян)
Как я могу быть уверен, что логистическая регрессия проснулась хорошо?