Этот вопрос, вероятно, не входит в рекомендации, потому что вы спрашиваете мнение.
Сказав, что я бы предложил:
А) вы выбираете язык, который вы знаете.
B) если вы знаете и то, и другое, выбирайте в зависимости от необходимых вам функций.
C) рассмотреть производительность - я полагаю (но не могу подтвердить), что скомпилированный Java Jar будет работать без запуска среды выполнения Java только для поддержки этого модуля Java (он будет работать внутри экземпляра Java куста). Для запуска модуля Python необходимо создать новый интерпретатор Python и передать данные посредством межпроцессного взаимодействия. Таким образом, java возможно немного более эффективен, особенно если алгоритм прост. Однако, если вы не обрабатываете огромные наборы данных, вы, вероятно, даже не заметите.
Наконец, вы, вероятно, могли бы выполнять все функции, которые вы запрашивали, с помощью языка запросов Hive.