Невозможно подготовить тренировочные данные для моей модели, если число категориальных переменных не зафиксировано - PullRequest
0 голосов
/ 21 февраля 2019

Я пытаюсь решить проблему регрессии, когда фабрика объединяет продукты, включенные в заказ.

У меня есть общее время, затраченное фабрикой слияния на объединение одного заказа.Теперь возникает проблема.

, когда два продукта с разным количеством-2 объединяются вместе, для объединения требуется определенное количество времени. Но иногда более двух продуктов с разным количеством-2 поступают в порядке иФабрика слияний объединяет это.

У меня есть общее время, затрачиваемое фабрикой на каждый консолидированный заказ.Количество продуктов, которые будут объединены в объединенном центре, может быть любым от 1 до n.

Как мне подготовить данные тренировки для моей модели, чтобы понять это?

ProductCode ProdQty  

x1           1                

x2           4                

Приведенный выше пример занял 143 часа

 ProductCode ProdQty  

x1           1                

x2           4     

x3           7           

Приведенный выше пример занял 200 часов.

Теперь в первом примере это заняло 143 часа в центре слияния, где было два продукта разных количеств - 2, а во втором примере - три продукта, и это заняло 200 часов.

Как мнеподготовить данные обучения, чтобы моя модель понимала их, и я мог предсказать, сколько времени займет завод?

У меня есть и много других функций, но это зависит от конкретного заказа, но я знаю, как с этим справиться.

1 Ответ

0 голосов
/ 24 февраля 2019

Вот так:

x1 x2 x3 x4 ... xn y
1  4  0  0      0  143
1  4  7  0      0  200

Здесь ваша зависимая переменная y, представляющая собой время, которое каждый пакет занимал для сборки, является функцией величин всех x, которые входят вэтот пакет.Ваша цель состоит в том, чтобы уменьшить время упаковки на отдельные количества.В первой строке данных о тренировках все значения x3 и x4 и т. Д. Равны нулю, поскольку они отсутствовали в том порядке, на подготовку которого потребовалось 143 часа.Во втором ряду все значения x4, x5 и т. Д. Равны нулю, поскольку они отсутствовали в том порядке, для подготовки которого потребовалось 200 часов.

Теперь можно выполнить регрессию y на всех x значениях, и когда кто-то говорит: «У меня новый порядок 10 x5, 2 x3 и 7 x7, вы можете просто вставить эти три числа в расчетное уравнение и придуматьВаш желаемый прогноз y.

Надеюсь, что ответит на ваш вопрос с данными. Пожалуйста, прокомментируйте, если вам нужно какое-либо разъяснение или изменение этой структуры.


Добавление:

Если у вас есть дополнительные переменные, которые влияют на время упаковки, вы также можете добавить их в виде столбцов. Допустим, вы хотите использовать температуру, время получения заказа, количество работников и то, кем был менеджер склада (просто составляющий), чтобы предсказатьвремя упаковки. Вы можете сделать это:

x1 x2 x3 x4 ... xn temp orderTime workers manager y
1  4  0  0      0   20  5AM       5       John    143
1  4  7  0      0   30  11AM      3       George  200

Конечно, некоторые из этих новых функций потребуют дублирования, категоризации и т. д., в то время как ваш исходный x содержит количествопросто непрерывные переменные.

...