Вероятность того, что точка данных будет хорошо классифицирована - PullRequest
0 голосов
/ 15 апреля 2020

У меня есть набор помеченных и непомеченных данных, последние, которые я хотел бы классифицировать с помощью обучения с полудонтролем. Предположим, у меня уже есть алгоритм, который дает мне лучшую точность в прогнозировании меток обучающей подвыборки. Я хочу использовать этот алгоритм для прогнозирования меток немаркированных подвыборок. В обучении с полууправлением псевдо-помеченные данные добавляются к помеченным (обучающим) данным. Я хотел бы выбрать из данных, помеченных псевдо-метками, только те точки, в которых вероятность правильной классификации выше, чем, скажем, 0,8, и повторять процедуру до тех пор, пока все немеченые данные не будут псевдо-помечены с высокой вероятностью. Как я мог этого добиться? Есть ли код или встроенная функция, которая помогает мне вычислить такую ​​вероятность?

1 Ответ

0 голосов
/ 16 апреля 2020

Все эти алгоритмы

1002 * AdaBoostClassifier, BaggingClassifier, BayesianGaussianMixture, BernoulliNB, CalibratedClassifierCV, ComplementNB, DecisionTreeClassifier, ExtraTreeClassifier, ExtraTreesClassifier, GaussianMixture, GaussianNB, GaussianProcessClassifier, GradientBoostingClassifier, KNeighborsClassifier, LabelPropagation, LabelSpreading, LinearDiscriminantAnalysis, логистическая регрессия, LogisticRegressionCV, MLPClassifier, MultinomialNB, NuSV C, QuadraticDiscriminantAnalysis, RandomForestClassifier, SGDClassifier, SV C, _BinaryGaussianProcessClassifierLaplace, _ConstantPredictor

поддерживают метод, который называется предсказанием_процесса *, который точно равен 100, то есть сам (точно)

...