В настоящее время я рассматриваю возможность использования Apache Spark для расчета некоторых полисов страхования жизни.Упрощенная версия ввода данных, а также требуемый вывод приведены ниже.
![Spark Life insurance transformation](https://i.stack.imgur.com/kCjwc.png)
Какие варианты можно рассмотреть при использовании этого типа преобразования при одновременном достижении полного преимущества параллельных вычислений в кластере Spark?
Словом, мое требование состоит в том, чтобы ежемесячно планировать каждую политику на определенное количество месяцев.Во время прогноза рассчитывается несколько вещей, включая страховые взносы и суммы, гарантированные по мере их роста с течением времени.В идеале было бы применить некоторую функцию (например, называемую ProjectPolicies), которая выполняет все вычисления на основе входных данных и возвращает выходные данные.Если эта опция недоступна, мне нужно знать, возможно ли записать вывод в функцию, которая выполняет вычисления (например, записать вывод в ProjectPolicies).Можно ли создавать и выводить кадры данных внутри функции?Каковы рекомендуемые параметры вывода?
Я буду признателен за некоторые примеры кода в ответе, которые помогут мне получить четкое представление о том, как его можно применять в Spark.
Заранее благодарим за любую помощь!