Как работает Spark зависимость от экспорта моделей? - PullRequest
0 голосов
/ 27 ноября 2018

Может ли кто-нибудь объяснить простым языком, как работает экспорт модели Spark, который НЕ зависит от кластера Spark во время прогнозов?

Я имею в виду, если мы используем функции Spark, такие как ml.feature.stopwordremover вОбучение работе с ML-конвейером и его экспорт, скажем, в формате PMML. Как эта функция восстанавливается при развертывании в рабочей среде, где у меня нет установки Spark.Может быть, когда мы используем JPMML.Я пролистал вики-страницу PMML здесь , но она просто объясняет структуру PMML.Тем не менее, там нет описания функций.

Любые хорошие ссылки на статьи приветствуются.

1 Ответ

0 голосов
/ 28 ноября 2018

Поэкспериментируйте с библиотекой JPMML-SparkML (или с ее PySpark2PMML или Sparklyr2PMML внешними интерфейсами), чтобы увидеть, насколько точно разные преобразователи и модели Apache Spark сопоставлены сстандарт PMML.

Например, стандарт PMML не предоставляет специализированный элемент «удалить стоп-слова».Вместо этого все низкоуровневые манипуляции с текстом обрабатываются с использованием общих элементов TextIndex и TextIndexNormalization .Удаление стоп-слов выражается / реализуется как преобразование регулярного выражения, где они просто заменяются пустыми строками.Для оценки таких документов PMML ваша среда выполнения должна обеспечивать только базовые возможности регулярных выражений - абсолютно не требуется среда выполнения Apache Spark или ее алгоритмы / классы преобразователя и модели.

Перевод из Apache Spark ML в PMML работает на удивление хорошо(например, гораздо лучший охват, чем с другими подходами к переводу, такими как MLeap).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...