Question

Я создаю задание spark, и мне интересно, есть ли какие-либо преимущества в производительности при чтении таблицы с помощью spark.sqlContext().read("table") против spark.sql("select * from table") Или логический план spark в конечном итоге одинаков?

Greg · Answer 1 · 21 февраля 2019

Если вы используете spark.read.jdbc, вы можете указать ключ раздела для параллельного чтения таблицы, а затем иметь несколько разделов для работы с spark.Будет ли это быстрее, зависит от rdbms и физического дизайна таблицы.Это значительно уменьшит объем памяти, необходимый одному исполнителю.

https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html

Оптимизация производительности таблицы чтения Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Оптимизация производительности таблицы чтения Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов