Создание сеанса Pyspark занимает около 25 секунд - PullRequest
0 голосов
/ 14 апреля 2020

Я пытаюсь работать с PySpark, используя соединитель MongoDB. Но создание одного сеанса PySpark занимает почти 20-25 секунд, что снижает производительность сервиса. Я также дал фрагмент кода, который я использую для создания сеанса зажигания. Кто-нибудь может подсказать, пожалуйста, как сделать это быстрее?

from pyspark.sql import SparkSession
my_spark = SparkSession \
        .builder \
        .appName("myApp") \
        .config("spark.mongodb.input.uri", "mongodb://localhost:27017/test/collection1" \
        .config("spark.mongodb.output.uri", "mongodb://localhost:27017/test/collection1" \
        .config("spark.mongodb.input.partitioner", "MongoPaginateBySizePartitioner") \
        .getOrCreate()

1 Ответ

0 голосов
/ 17 апреля 2020

Ради производительности может быть хорошей идеей как можно больше использовать один и тот же SparkSession.

Здесь есть несколько вариантов: если ваша служба находится не в самой Python, вы могли бы создайте вторую службу REST Python, которая поддерживает сеанс.

Это должно быть достаточно просто с такими фреймворками, как Flask, FastAPI, Bottle, Falcon или аналогичными.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...