Преобразование 10-мегабайтного файла Rdata в PMML с использованием r2PPML позволяет получить 350-мегабайтный PMML-файл.Как я могу сделать его меньше? - PullRequest
1 голос
/ 02 апреля 2019

У меня есть файл RData, который представляет собой модель случайного леса, его размер составляет 10 МБ.Я хочу преобразовать его в PMML, но при использовании библиотеки R2PMML это создает PMML-файл 350 Мб, с которым можно работать гораздо больше.Любая идея, как я могу сделать это меньше?Я хочу иметь возможность использовать PMML в производственной среде Python, поэтому файл должен быть значительно меньше.

1 Ответ

0 голосов
/ 02 апреля 2019

Можно изменить структуру данных дерева решений, указав параметр преобразования compact = TRUE:

library("r2pmml")
library("randomForest")
iris.rf = randomForest(Species ~ ., data = iris)
r2pmml(iris.rf, "RandomForestIris-compact.pmml", compact = TRUE)

Однако размер файла PMML в локальной файловой системе не очень хороший показатель того, сколько памятиэто будет потреблять во время выполнения.Ваш 350 МБ файл, вероятно, помещается в 50-75 МБ ОЗУ при правильной загрузке (например, 100 МБ вашего файла - это пробельные символы).

...