Я пытаюсь использовать XGBoost для прогнозирования ранга для набора функций для данного запроса. Мне удалось обучить модель, но я запутался во входных данных, когда спрашивал прогноз.
Я пытаюсь понять, делаю ли я что-то неправильно или это неправильный подход.
Что я делаю:
Я анализирую тренировочные данные ( см. Здесь образец ) и подаю их в DMatrix так, чтобы первый столбец представлял качество соответствия, а следующие столбцы - баллы на различные свойства, а также отправлять docIds в качестве меток
Я настраиваю размеры группы
Тренировка, кажется, работает нормально, я получаю не ошибки, и я использую ранг: попарно цель
Для прогнозирования я использую поддельную запись с поддельными счетами (1 строка, 2 столбца см. Здесь ) и получаю одно значение с плавающей запятой.
Я пытаюсь понять:
1. Нужно ли вводить ярлык для прогноза?
Насколько я понимаю, ярлыки похожи на "идентификаторы документов", поэтому во время прогнозирования я не понимаю, зачем они мне нужны
2. Нужно ли устанавливать размер группы при прогнозировании? И если так, что это представляет?
Насколько я понимаю, группы служат для обучения данных, чтобы помочь ранжированию "по запросу". Как это соотносится с прогнозами? Я все равно устанавливаю размер группы?
3. Как соотнести «группу» из тренинга с прогнозом?
Как определить пару (счет, группу) по результату прогноза, если я получу только одно значение с плавающей запятой - для какой группы этот прогноз?