Записывает ли спарк кадры данных асинхронно - PullRequest
0 голосов
/ 17 февраля 2020

У меня есть два искровых фрейма данных df1 и df2. Я пытаюсь записать их в два разных пути к файлам. Может кто-нибудь сказать мне, записи происходят синхронно или асинхронно? То есть, поскольку они представляют собой два разных фрейма данных, записывающих по двум разным путям, произойдет ли запись одновременно или мне нужно подождать, пока он закончит запись df1, прежде чем начнется запись df2? * Пример

код:

добавлено обновление импортируемых библиотек:

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

glueContext = GlueContext(SparkContext.getOrCreate())

# updated 11/19/19 for error caused in error logging function
spark = glueContext.spark_session

from pyspark.sql import Window
from pyspark.sql.functions import col
from pyspark.sql.functions import first
from pyspark.sql.functions  import date_format
from pyspark.sql.functions import lit,StringType
from pyspark.sql.types import *
from pyspark.sql.functions import substring, length, min,when,format_number,dayofmonth,hour,dayofyear,month,year,weekofyear,date_format,unix_timestamp
import time
import math

df1.write.mode("overwrite").parquet(filepath1)

df2.write.mode("overwrite").parquet(filepath2)

1 Ответ

0 голосов
/ 17 февраля 2020

Если его в одном потоке, он будет писать по одному. Вы можете использовать threding и поделиться контентом искры.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...