Question

У меня есть проект Pyspark, для которого требуется пользовательский ML Pipeline Transformer, написанный на Scala.Какова лучшая практика в отношении организации проекта?Стоит ли включать файлы scala в общий проект Python или они должны находиться в отдельном репо?Мнения и предложения приветствуются.

Предположим, что мои проекты Python выглядят так:

project 
  - etl
  - model
  - scripts
  - tests

Каталог модели будет содержать код Spark ML для модели, а также код конвейера ML.Скала код для кастомного трансформера вживую?Структура для этого выглядит следующим образом:

custom_transformer/src/main/scala
   - com/mycompany/dept/project/MyTransformer.scala

Могу ли я просто добавить его в качестве еще одного каталога в структуре проекта Python выше или он должен находиться в своем собственном проекте и репо?

Организация проекта PySpark с настраиваемым преобразователем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Организация проекта PySpark с настраиваемым преобразователем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы