Я сталкиваюсь с проблемой OOM, когда выполняю код в кластере Spark (Dataproc).
Среда: кластер из 2 узлов, каждый узел имеет 6 ГБ памяти.Размер тестового файла составляет 20 ГБ.
Вот мой код:
from __future__ import absolute_import
import pyspark
sc = pyspark.SparkContext()
sc._jsc.hadoopConfiguration().set('fs.sftp.impl', 'org.apache.hadoop.fs.sftp.SFTPFileSystem')
data = sc.textFile("sftp://user:pass@54.23.12.100/data/tmp/test_tile.csv.gz")
data.saveAsTextFile("gs://data/tmp")
Можно ли передавать данные в GCS с помощью кластера Spark и иметь регулирование (буфер) для рабочих узлов, чтобы избежать OOMошибка?Или, если есть какое-то другое решение для чтения данных из внешнего источника (sftp) и сохранения их в GCS?