У меня есть кластер в кирпичах данных. Прежде чем импортировать данные, я хочу выбрать из python против scala, какой из них лучше с точки зрения чтения / записи больших данных из источника?
Я бы выбрал scala, два моих цента на эту тему:
Scala:
Python:
Также я рекомендую эту статью: https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html
Для API-интерфейса dataframe должна быть та же производительность. Для API RDD scala будет быстрее.