У меня есть проект Pyspark, для которого требуется пользовательский ML Pipeline Transformer, написанный на Scala.Какова лучшая практика в отношении организации проекта?Стоит ли включать файлы scala в общий проект Python или они должны находиться в отдельном репо?Мнения и предложения приветствуются.
Предположим, что мои проекты Python выглядят так:
project
- etl
- model
- scripts
- tests
Каталог модели будет содержать код Spark ML для модели, а также код конвейера ML.Скала код для кастомного трансформера вживую?Структура для этого выглядит следующим образом:
custom_transformer/src/main/scala
- com/mycompany/dept/project/MyTransformer.scala
Могу ли я просто добавить его в качестве еще одного каталога в структуре проекта Python выше или он должен находиться в своем собственном проекте и репо?