Модель LightGBM возвращает одинаковую оценку с разными параметрами - PullRequest
2 голосов
/ 17 июня 2020

Я пытаюсь обучить модель LightGBM на наборе данных о жилье Kaggle Iowa, и я написал небольшой скрипт, чтобы случайным образом пробовать разные параметры в заданном диапазоне. Я не уверен, что не так с моим кодом, но скрипт возвращает тот же результат с другими параметрами, чего не должно происходить. Я попробовал тот же сценарий с Catboost, и он работает, как и ожидалось, поэтому я предполагаю, что проблема в LGBM.

Код:

import numpy as np
import pandas as pd
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from random import choice, randrange, uniform 

complete_train = pd.read_csv(
    "train.csv",
    encoding = "UTF-8", 
    index_col = "Id")

complete_test = pd.read_csv(
    "test.csv",
    encoding = "UTF-8",
    index_col = "Id")

def encode_impute(*datasets):
    for dataset in datasets:
        for column in dataset.columns:
            dataset[
                column].fillna(
                -999,
                inplace = True)
            if dataset[
                column].dtype ==  "object":
                dataset[
                    column] = dataset[
                    column].astype("category", copy = False)
encode_impute(
    complete_train, 
    complete_test)

X = complete_train.drop(
    columns = "SalePrice")

y = complete_train[
    "SalePrice"]

X_train, X_valid, y_train, y_valid = train_test_split(X, y)

def objective():

    while True:

        params = {
            "boosting_type": choice(["gbdt", "goss", "dart", "rf"]),
            "num_leaves": randrange(10000),
            "learning_rate": uniform(0.01, 1),
            "subsample_for_bin": randrange(100000000),
            "min_data_in_leaf": randrange(100000000),
            "reg_alpha": uniform(0, 1),
            "reg_lambda": uniform(0, 1),
            "feature_fraction": uniform(0, 1),
            "bagging_fraction": uniform(0, 1),
            "bagging_freq": randrange(1, 100)}

        params["bagging_fraction"] = 1.0 if params[
                        "boosting_type"] == "goss" else params[
                        "bagging_fraction"]

        model = LGBMRegressor().set_params(**params)

        model.fit(X_train, y_train)

        predictions = model.predict(X_valid)

        error_rate = mean_absolute_error(
          y_valid, predictions)

        print(f"Score = {error_rate} with parameters: {params}","\n" *5)

objective()

Пример вывода, который я получаю:

Score = 55967.70375930444 с параметрами: {'boosting_type': 'gbdt', 'num_leaves ': 6455,' скорость_обучения ': 0,2479700848039991,' subsample_for_bin ': 83737077,' min_data_in_leaf ': 51951103,' reg_alpha ': 0,1856001984332697,' reg_lambda ': 0,784926372049058861: 0,784926372049058861,' bag327fraging_fraging_frazion ':' 96}

Оценка = 55967.70375930444 с параметрами: {'boosting_type': 'dart', 'num_leaves': 9678, 'Learning_rate': 0,28670432435369037, 'subsample_for_bin': 24246091, 'min_data_in_leaf', 'reg_alpha': 559094 : 0,07261459695501371, 'reg_lambda': 0,8834743560240725, 'feature_fraction': 0,5361519020265366, 'bagging_fraction': 0,9120030047714073, 'bagging_freq': 10}

Score = 559674.70ss ': 4898,' скорость_обучения ': 0,09237499846487345,' subsample_for_bin ': 32620066,' min_data_in_leaf ': 71317820, 'reg_alpha': 0,9818297737748625, 'reg_lambda': 0,11638265354331834, 'feature_fraction': 0,4230342728468828, 'bagging_fraction': 1.0, 'bagging_freq': 64}

1 Ответ

1 голос
/ 18 июня 2020

Я хотел бы указать, что этот параметр min_data_in_leaf во всех вариантах кажется очень высоким, и я подозреваю, что модель ничего не изучает и просто отправляет среднее значение переменной ответа только с узлом root.

...