Spark пишет пустые файлы - PullRequest
0 голосов
/ 23 мая 2018

По какой-то причине Spark пишет пустые файлы.Не уверен, что я делал неправильно.

from pyspark.sql import SparkSession, DataFrame, DataFrameWriter, functions as F
from pyspark.sql.types import LongType, StringType, StructField, StructType, BooleanType, ArrayType, IntegerType, TimestampType


    if __name__ == "__main__":

    print('start')
    spark = SparkSession \
        .builder \
        .appName("testing") \
        .config("spark.ui.enabled", "true") \
        .master("yarn-client") \
        .getOrCreate()


    myschema = StructType([\
                         StructField("field1", TimestampType(), True), \
                         StructField("field2", TimestampType(), True), \
                         StructField("field3", StringType(), True),
                         StructField("field4", StringType(), True), \
                         StructField("field5", StringType(), True), \
                         StructField("field6", IntegerType(), True), \
                         ])

    df = spark.read.load("s3a://bucket/file.csv",\
                 format="csv", \
                 sep=",", \
                 # inferSchema="true", \
                 timestampFormat="MM/dd/yyyy HH:mm:ss",
                 header="true",
                 schema=myschema
                )

    print(df.count()) #output is 50

    df.write.csv(path="s3a://bucket/folder",\
                                                                header="true"
                                                                )

Вывод из оператора print равен 50, что правильно.Но выходной файл на S3 содержит просто файл с заголовками без каких-либо данных.Должен ли я добавить еще один параметр в функцию write?Я не уверен, почему я не вижу никаких записываемых данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...