У меня 16,0 ГБ оперативной памяти, процессор i7-8665U, 4 ядра, Windows 10.
Набор данных - это 80K наблюдений, 18 или 49 переменных (я пробовал эти модели с обеими). Я не могу предоставить образец, потому что он проприетарный.
Я пытался запустить карет с различными моделями - C5.0
, xgboost
, ranger
, svmRadial
) и все они бегут смехотворно долго (более 24 часов) или вообще не прекращают бегать. По общему признанию, я запутался в параллельной обработке и пробовал модели с различными комбинациями:
allowParallel = TRUE
(в trainControl) nthread = 1
или nthread = 3
(в поезде) - За пределами модели, начиная с
cluster <- makeCluster(3)
или cluster = makeCluster(2)
и registerDoParallel(cluster)
(заканчивая stopCluster(cluster)
и registerDoSeq()
, чтобы отключить параллельную обработку.
I'm используя method = 'repeatedcv', number = 5, repeats = 3
или method = 'cv', number = 3
, так что я не думаю, что моя перекрестная проверка настолько безумна.
Я думаю, мне интересно узнать о праймере для использования параллельной обработки в каретке. Очевидно, я не уверен, что Я делаю. Я пытался собрать воедино разные руководства из справки Caret, StackOverflow и других мест в Интернете, и многие из них дают разные советы. Я также нашел совет не использовать параллельная обработка в карете вообще.
- Как запустить параллельную обработку? Достаточно ли использовать
allowParallel = TRUE
и указать nthread = 3
(для 3 ядер)? - Если это не так достаточно, какие команды я должен использовать outsi de тренироваться включать параллельную обработку для машины Windows 10?
- Я читал, что разные модели требуют разных настроек. Есть ли руководство, когда использовать какие параметры параллельной обработки для каких моделей?
- Не достаточно ли моей системы для запуска этих моделей? Я знаю, что это не самое лучшее, но, конечно, это не невозможно, верно?