Question

Я пытаюсь работать с PySpark, используя соединитель MongoDB. Но создание одного сеанса PySpark занимает почти 20-25 секунд, что снижает производительность сервиса. Я также дал фрагмент кода, который я использую для создания сеанса зажигания. Кто-нибудь может подсказать, пожалуйста, как сделать это быстрее?

from pyspark.sql import SparkSession
my_spark = SparkSession \
        .builder \
        .appName("myApp") \
        .config("spark.mongodb.input.uri", "mongodb://localhost:27017/test/collection1" \
        .config("spark.mongodb.output.uri", "mongodb://localhost:27017/test/collection1" \
        .config("spark.mongodb.input.partitioner", "MongoPaginateBySizePartitioner") \
        .getOrCreate()

alxrcs · Answer 1 · 17 апреля 2020

Ради производительности может быть хорошей идеей как можно больше использовать один и тот же SparkSession.

Здесь есть несколько вариантов: если ваша служба находится не в самой Python, вы могли бы создайте вторую службу REST Python, которая поддерживает сеанс.

Это должно быть достаточно просто с такими фреймворками, как Flask, FastAPI, Bottle, Falcon или аналогичными.

Создание сеанса Pyspark занимает около 25 секунд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создание сеанса Pyspark занимает около 25 секунд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов