Разделите файлы на основе ограничения размера, например, менее 5 МБ или количества строк / объектов Json в pyspark - PullRequest
0 голосов
/ 26 апреля 2019

Попытка сохранить файлы в «DSE FS» из «dse pyspark» в форме JSON / CSV.Но пытаясь ограничить их в зависимости от размера или количества строк.

Пробовал эти вещи

test = sqlContext.read.format("org.apache.spark.sql.cassandra").options(table="time_history", keyspace="sample_ks").load()
result1 = test.select("tax_id","date")
result2 = result1.filter(result1['date'] <= '2024-06-14 06:56:55.0')

Теперь я могу достичь как один файл, как этот

result2.coalesce(1).toJSON().saveAsTextFile("/tmp1/te.json")

Автоматическое разделение по этим значениям, но не удается достичь желаемого размера файла

result2.toJSON().saveAsTextFile("/tmp/te.json")

Пожалуйста, помогите, как достичь этого файла по размеру или количеству строк.

...