У меня есть набор данных, который содержит все цитаты, сделанные компанией за последние 3 года. Я хочу создать прогностическую модель, используя библиотечный каркас в R, чтобы предсказать, будет ли цитата принята или отклонена.
Структура набора данных вызывает у меня некоторые проблемы. Он содержит 45 переменных, однако я включил только две нижеуказанные, поскольку они являются единственными переменными, которые важны для этой проблемы. Выдержка из набора данных показана ниже.
contract.number item.id
0030586792 32X10AVC
0030586792 ZFBBDINING
0030587065 ZSTAIRCL
0030587065 EMS164
0030591125 YCLEANOFF
0030591125 ZSTEPSWC
contract.number <- c("0030586792","0030586792","0030587065","0030587065","0030591125","0030591125")
item.id <- c("32X10AVC","ZFBBDINING","ZSTAIRCL","EMS164","YCLEANOFF","ZSTEPSWC")
dataframe <- data.frame(contract.number,item.id)
Каждый уникальный номер контракта соответствует одной сделанной цитате. Item.id соответствует элементу, для которого указана цена. Поэтому цитата 0030586792 включает в себя оба элемента 32X10AVC и ZFBBDINING.
Если я рандомизирую порядок набора данных и моделирую его в его текущей форме, я боюсь, что модель просто узнает, какие контрактные числа выиграли и проиграли во время обучения, и это сделало бы недействительным мое тестирование, поскольку в реальном мире это не так. известен до того, как был сделан прогноз. У меня также есть дополнительный вопрос о том, что делать, если модель предсказывает, что один и тот же contract.number выиграет с некоторыми item.id и проиграет с другими.
Моим идеальным решением было бы объединить каждый контрактный номер в одну строку с несколькими item.ids на строку, чтобы сформировать трехмерный фрейм данных. Но я не знаю, сможет ли Карет смоделировать это? Разделить item.ids на несколько столбцов нереально, так как некоторые цитаты содержат сотню item.id. Любая помощь приветствуется!
(Извините, если я не объяснил хорошо!)