Организация проекта PySpark с настраиваемым преобразователем - PullRequest
0 голосов
/ 23 сентября 2019

У меня есть проект Pyspark, для которого требуется пользовательский ML Pipeline Transformer, написанный на Scala.Какова лучшая практика в отношении организации проекта?Стоит ли включать файлы scala в общий проект Python или они должны находиться в отдельном репо?Мнения и предложения приветствуются.

Предположим, что мои проекты Python выглядят так:

project 
  - etl
  - model
  - scripts
  - tests

Каталог модели будет содержать код Spark ML для модели, а также код конвейера ML.Скала код для кастомного трансформера вживую?Структура для этого выглядит следующим образом:

custom_transformer/src/main/scala
   - com/mycompany/dept/project/MyTransformer.scala

Могу ли я просто добавить его в качестве еще одного каталога в структуре проекта Python выше или он должен находиться в своем собственном проекте и репо?

...