Question

У меня есть кластер в кирпичах данных. Прежде чем импортировать данные, я хочу выбрать из python против scala, какой из них лучше с точки зрения чтения / записи больших данных из источника?

dejdej · Answer 1 · 25 апреля 2020

Я бы выбрал scala, два моих цента на эту тему:

Scala:

поддерживает несколько примитивов параллелизма
использует JVM во время выполнения который дает некоторую скорость по сравнению с Python

Python:

не поддерживает параллелизм или многопоточность (поддерживает разветвление тяжеловесного процесса, так что только один поток активен в время)
интерпретируется и динамически печатается, и это снижает скорость

Также я рекомендую эту статью: https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html

Joe Widen · Answer 2 · 24 апреля 2020

Для API-интерфейса dataframe должна быть та же производительность. Для API RDD scala будет быстрее.

Блоки данных Python против Scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Блоки данных Python против Scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы