Обратный инжиниринг по модели Xgboost - PullRequest
0 голосов
/ 02 апреля 2019

Я делаю эксперименты на https://www.physionet.org/challenge/2017/sources/ представлении.

Мне нравится один из кодов отправки, который использует Xgboost для обучения классификатора.Данные обучения находятся в файле .mat, который я преобразовал в файл CSV для обучения.

В приведенном ниже коде у меня есть предварительно обученная модель xgb.bin, с помощью которой я могу проверить любой входной сигнал.Но я хочу обучить модель, используя другие данные, и создать свою собственную модель обучения.

Вот код, который предсказывает имя класса для данного входного файла ЭКГ:

def predict(data):
    #data = io.loadmat(path)['val'][0]
    from numpy import genfromtxt
    data = genfromtxt('testdata/val.csv', delimiter=',')

    features_noise = np.zeros((5, ))

    snr, rr_num, var, fr, fr2 = find_noise_features(data)
    features_noise[0] = snr
    features_noise[1] = rr_num
    features_noise[2] = var
    features_noise[3] = fr
    features_noise[4] = fr2
    features = extract_basic_features(data, 30000)
    features = np.hstack((features, features_noise.reshape(1, -1)))

    mean_ = np.array([15.96300284066109753667, 0.00412371298595770857, 38811.34497233365254942328,
                      0.48050717744965593115, 0.14397582347542958736])
    scale_ = np.array([4.22917401559752281770, 0.00093664880988427878, 62350.76443798459513345733,
                       0.15396567666240373873, 0.07085474966801086349])
    features_noise -= mean_
    features_noise /= scale_

    prediction = 0
    if features_noise[0] < -2.9:
        prediction = 3
    if features_noise[2] > 6.0:
        prediction = 3
    if features_noise[3] > 3.0:
        prediction = 3
    if features_noise[4] < -2.0:
        prediction = 3

    bst = xgb.Booster({'nthread': 4})
    bst.load_model("xgb.bin")

    dfeatures = xgb.DMatrix(features)
    prediction_prob = bst.predict(dfeatures)
    prediction = np.argmax(prediction_prob)

    return prediction

def run(data): 
    prediction = predict(data)
    print(prediction)

Iможет создать dfeatures для всех данных обучения, которые есть в файле CSV.(Я читаю каждый CSV отдельно и вычисляю функцию. Это правильно?)

Теперь, когда у меня есть настройки по умолчанию для всех обучающих файлов ЭКГ, я хочу создать модель xgboost.Но я понятия не имею для этого.Любое предложение высоко ценится.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...