В настоящее время я сравниваю методы выборки в Python и вижу, насколько эффективна избыточная выборка для классификации набора данных после применения этих методов выборки. Я пытаюсь сравнить выборку неопределенности и энтропийную избыточную выборку, которые, как я понимаю, похожи, но все равно должны давать разные результаты. Я использую пакет modAL Python.
from modAL.uncertainty import uncertainty_sampling, entropy_sampling
from sklearn import svm
import numpy as np
X = [1,2,3,4,5,6,7,8,9,4,2,6,2,8,3,4,8,3,2,7,3,67,4,3,1,7,67,49]
X = np.array(X)
_, X_uncert = uncertainty_sampling(classifier = svm.SVC(decision_function_shape='ovo', gamma='auto', probability=True), n_instances=5, X=X)
_, X_ent = entropy_sampling(classifier = svm.SVC(decision_function_shape='ovo', gamma='auto', probability=True), n_instances=5, X=X)
print("UNCERTAINTY")
print(X_uncert)
print("ENTROPY")
print(X_ent)
Оба эти метода выборки дают одинаковые результаты:
UNCERTAINTY
[ 7 3 67 2 4]
ENTROPY
[ 7 3 67 2 4]
modAL также имеет функцию выборки поля, которая снова дает те же результаты. Любая помощь о том, почему это происходит?
Спасибо