Как правильно реализовать голосование по методу суммирования дерева решений с помощью цикла for? - PullRequest
0 голосов
/ 09 ноября 2018

Я новичок в Python и машинном обучении. Я пытался взглянуть на документацию sklear для классификатора голосования, и, чтобы быть честным, я потерял сознание.

Я выполнил упаковку для дерева решений внутри цикла for, однако я застрял там, где мне нужно провести голосование, чтобы принять окончательное решение по каждый образец данных, а затем рассчитать точность на окончательные результаты.

Я получаю TypeError: zip argument #1 must support iteration.

Ниже мой код

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.utils import resample


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.35, random_state=3)

predictions = []

for i in range(1,20):
bootstrap_size = int(0.8*len(X_train))
x_bag, y_bag = resample(X_train,y_train, n_samples = bootstrap_size , random_state=i , replace = True) 
Base_DecisionTree = DecisionTreeClassifier(random_state=3)
Base_DecisionTree.fit(x_bag, y_bag)
y_predict = Base_DecisionTree.predict(X_test)
accuracy = accuracy_score(y_test, y_predict)
predictions.append(accuracy)


from sklearn.ensemble import RandomForestClassifier, VotingClassifier
votingClass = VotingClassifier(predictions)
#print(votingClass)
votingClass.fit(X_train, y_train)
confidence = votingClass.score(X_test, y_test)
print('accuracy:',confidence)

1 Ответ

0 голосов
/ 09 ноября 2018

Я посмотрел на VotingClassifier из моего понимания, что функция принимает набор классификаторов, в то время как в вашем случае вы предоставляете список точности. Пример кода можно найти в документации по sklearn (https://scikit -learn.org / stable / modules / generate / sklearn.ensemble.VotingClassifier.html )

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier, VotingClassifier

clf1 = LogisticRegression(solver='lbfgs', multi_class='multinomial',random_state=1)
clf2 = RandomForestClassifier(n_estimators=50, random_state=1)
clf3 = GaussianNB()

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])
eclf1 = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)], voting='hard')
eclf1 = eclf1.fit(X, y)
print(eclf1.predict(X))
#[1 1 1 2 2 2]
np.array_equal(eclf1.named_estimators_.lr.predict(X), eclf1.named_estimators_['lr'].predict(X))
#True
eclf2 = VotingClassifier(estimators=[ ('lr', clf1), ('rf', clf2), ('gnb', clf3)], voting='soft')
eclf2 = eclf2.fit(X, y)
print(eclf2.predict(X))
#[1 1 1 2 2 2]
 eclf3 = VotingClassifier(estimators=[ ('lr', clf1), ('rf', clf2), ('gnb', clf3)], voting='soft', weights=[2,1,1], flatten_transform=True)
eclf3 = eclf3.fit(X, y)
print(eclf3.predict(X))
#[1 1 1 2 2 2]
print(eclf3.transform(X).shape)
#(6, 6)

EDIT

Так что я не думаю, что функция VotingClassifier - верный путь для решения вашей задачи.

Что вам нужно сделать, так это собрать все y_predict из вашего цикла for. Это даст вам прогноз для каждого образца.

раз, что для каждой выборки (например, formula) у вас есть все прогнозы (например, formula), которые вы можете вычислить при голосовании. Результатом будет окончательная метка прогноза (formula = Голосование (formula)).

Точность дается при сравнении меток, предсказанных на основе голосования, с основополагающей правдой.

...