Я не уверен, что на самом деле вы пытаетесь предсказать, так что может случиться так, что многие переменные значимы, так как 40000 - это довольно большой простейший.
Но главное -вопрос: почему он предсказывает все (кроме 8) как ЛОЖЬ?
Ответ: это не так, но вы тестируете это с test$predicted.Storno > 0.5
.Это то же самое, что спросить: во скольких случаях вероятность возникновения заболевания превышает 50%.Как мы видим из вашей таблицы, только около 15% - ИСТИНА, поэтому вполне может быть, что даже случаи с самыми высокими коэффициентами остаются ниже 50%.Это звучит расплывчато, поэтому позвольте мне объяснить на примере:
Курение увеличивает ваши шансы заболеть раком легких.
Работа в шахтах увеличивает ваши шансы заболеть раком легких.
Семейная история ракаувеличивает ваши шансы заболеть раком.
Каковы шансы, что шахтер, который курит и имеет семейную историю рака, получит рак легкого до того, как ему исполнится 50?
Его шансы невелики, но все же этот шанс был быдо 50%, наверное, 10%?(в отличие от, возможно, 0,2% для широкой публики).
Так что, если вы сделаете модель, если это так, модель скажет что-то вроде предиката = 0,1, который вы переведете в ЛОЖЬ.И если вы запустите эту модель на 100 курящих горняках с семейным анамнезом, у каждого из них будет шансы <50% заболеть раком: 100 раз ЛОЖЬ.Хотя мы знаем статистически, вероятно, 10 из них заболеют раком легких.Просто индивидуально, каждый из 100 может ожидать здоровья. </p>
Так что в своем вопросе вы должны знать, о чем вы просите.Есть еще несколько статистических анализов о том, какую именно ценность использовать, о которой я не знаю достаточно, но сначала вам нужно точно знать, о чем вы спрашиваете.
РЕДАКТИРОВАТЬ:
Это не так многовопрос о том, как отредактировать / настроить вашу модель, но больше о том, как интерпретировать полученный результат.Некоторые примеры того, что вы можете спросить, и как получить ответы:
- Какие члены, скорее всего, в среднем верны?Вы можете проверить это, проверив, какие прогнозные значения превышают средние, например:
table(test$StornoBoolean, test$predicted.Storno > 6188/(33982+6188+8)
- Какие члены, скорее всего, будут истинными?`test <- test [порядок (test $ предикат. Storno, убывающий = ИСТИНА),] упорядочит результаты вашего теста </li>
- Проверка, является ли ваша модель (в целом) надежной: вы можете построить прогнозные коэффициенты относительно фактического отношения.
library(ggplot2); print(ggplot(data=test)+geom_histogram(aes(x=predicted.Storno, fill=StornoBoolean), position='stack'))
Если ваша модель была бы идеальной, при x = 0,10 10% от полного бара должно быть TRUE, 20% при 0,20 и т. Д. Обычно это не так, но вы должнывозможность видеть, что истинная доля увеличивается с увеличением х.Если вы хотите более четко увидеть, что такое фракция, вы можете использовать position = 'fill' в вызове, что означает, что все столбцы сжимаются / расширяются до одинаковой высоты, что делает фракцию более четкой для просмотра.Однако это может привести к вводящей в заблуждение картине для прогнозируемых значений, которые встречаются редко, поэтому следует смотреть только на значения x, которые достаточно часты.