сущность или разница между искрой и pyspark семанти c? - PullRequest
0 голосов
/ 02 марта 2020

Семантически, искра - это каркас.

1) Pyspark - это просто набор python -подобных вызывающих функций, написанных в scala?

, если я определяю свой собственный набор функций вместо стандартных функций, таких как:

def sum(a,b):
   return a+b

def subtract(a,b):
   return a-b

и использую их вместо обычных:

c = a+b
c = sum(a,b)

это похоже к природе внутреннего механизма работы pyspark? Pyspark в основном аналогичен синтаксису для тех, кто не знает Scala, но хочет сразу начать использовать spark?

2) Если я использую python на spark - тогда я использую pyspark. Верны ли 2 утверждения в отношении pyspark?

1 Ответ

1 голос
/ 02 марта 2020

1) Pyspark - это просто набор python -подобных вызывающих функций, написанных на scala?

Может быть, это то, что вы имеете в виду ... Основной движок то же. Я полагаю, что лучшая аналогия может быть Pyspark для "Spark", как httplib и okhttp для http . Это дает вам API, который вызывает тот же основной движок. Поскольку Spark работает на JVM, программы-драйверы, которые мы пишем на языках JVM (например, Scala или Java), напрямую используют API, но программы, написанные для интерпретатора Python API go через Python, выполняющегося на JVM. Это вопрос реализации, хотя. В отличие от другой реализации того же API на другом языке, Pyspark больше похож на другой интерфейс для той же реализации. Конечно, сама программа драйвера вызывает необходимость запуска Python кода при выполнении (Python функций / кода, вызываемого в программе).

2) Если я использую Python on spark - тогда я использую Pyspark.

Если вы вызываете Python API для Spark, напишите свою программу драйвера в Python, тогда вы делаете Pyspark. В это я включаю вызов модулей, предоставляемых Pyspark (например, pyspark.sql.*), и ваших собственных функций / logi c, вызываемых в ваших конвейерах (например, my_rdd.map(my_custom_function), где my_custom_function - ваша собственная функция, написанная в Python). «Использование Python на искре» звучит для меня как Spark - реализация Python, которая не соответствует действительности (или, по крайней мере, не предназначена для этого).


Теперь, после всего этого, стоит упомянуть, что Pyspark является частью Spark экосистемы. Просто у нас нет популярных имен для Spark с Scala («ScalaSpark»?) Или Spark с Java, как у нас Pyspark и SparkR .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...