По какой-то причине Spark пишет пустые файлы.Не уверен, что я делал неправильно.
from pyspark.sql import SparkSession, DataFrame, DataFrameWriter, functions as F
from pyspark.sql.types import LongType, StringType, StructField, StructType, BooleanType, ArrayType, IntegerType, TimestampType
if __name__ == "__main__":
print('start')
spark = SparkSession \
.builder \
.appName("testing") \
.config("spark.ui.enabled", "true") \
.master("yarn-client") \
.getOrCreate()
myschema = StructType([\
StructField("field1", TimestampType(), True), \
StructField("field2", TimestampType(), True), \
StructField("field3", StringType(), True),
StructField("field4", StringType(), True), \
StructField("field5", StringType(), True), \
StructField("field6", IntegerType(), True), \
])
df = spark.read.load("s3a://bucket/file.csv",\
format="csv", \
sep=",", \
# inferSchema="true", \
timestampFormat="MM/dd/yyyy HH:mm:ss",
header="true",
schema=myschema
)
print(df.count()) #output is 50
df.write.csv(path="s3a://bucket/folder",\
header="true"
)
Вывод из оператора print
равен 50, что правильно.Но выходной файл на S3 содержит просто файл с заголовками без каких-либо данных.Должен ли я добавить еще один параметр в функцию write
?Я не уверен, почему я не вижу никаких записываемых данных