Логистическая регрессия это все о статистике? - PullRequest
0 голосов
/ 05 июня 2019

Следуя примерам iris DataSets, я попытался сделать свою первую логистическую регрессию.Мой X - это количество слов в предложении, и я хотел бы (с помощью других параметров, но позже) найти вероятность того, что предложение должно иметь определенный термин (именованные объекты).

Итак, в моей статистике есть несколько предложений, в которых есть только 15 слов, или предложения с 80 словами, в которых его нет.Только с этим параметром это кажется немного случайным.Не настоящее правило.

Я что-то не так делаю?Или мы можем оправдать эти плохие результаты только параметром «недостаточно хорошо»?Все это заставляет меня думать, что логистическая регрессия - это всего лишь статистика (я думаю, что на самом деле это правда, но я потерян)

Вот почему в моей Логистической регрессии я обнаруживаю

log_reg.score(X,y) = 0.7666 

(не очень хорошо понимал, что это значит)

и с этим:

X_new = np.linspace(20, 80,150).reshape(150,1)  #150 Sentences between 20 and 80 words 
y_proba = log_reg.predict_proba(X_new)
decision_boundary = X_new[y_proba[:, 1] >= 0.5][0]

Я получил [68.32214765] за границу решения с максимальным% 0,57 ...

Я что-то не так делаю?Или мы можем оправдать эти плохие результаты только параметром «недостаточно хорошо»?

Все это заставляет меня думать, что логистическая регрессия - это всего лишь статистика (я думаю, что на самом деле это правда, но я потерян)

Как я могу быть уверен, что логистическая регрессия проснулась хорошо?

...