Блоки данных Python против Scala - PullRequest
2 голосов
/ 23 апреля 2020

У меня есть кластер в кирпичах данных. Прежде чем импортировать данные, я хочу выбрать из python против scala, какой из них лучше с точки зрения чтения / записи больших данных из источника?

Ответы [ 2 ]

3 голосов
/ 25 апреля 2020

Я бы выбрал scala, два моих цента на эту тему:

Scala:

  • поддерживает несколько примитивов параллелизма
  • использует JVM во время выполнения который дает некоторую скорость по сравнению с Python

Python:

  • не поддерживает параллелизм или многопоточность (поддерживает разветвление тяжеловесного процесса, так что только один поток активен в время)
  • интерпретируется и динамически печатается, и это снижает скорость

Также я рекомендую эту статью: https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html

1 голос
/ 24 апреля 2020

Для API-интерфейса dataframe должна быть та же производительность. Для API RDD scala будет быстрее.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...