Экспорт файла ~ 40 ГБ в хранилище облачных объектов IBM - PullRequest
0 голосов
/ 04 декабря 2018

Я использую записную книжку Python 3.5 и Spark в Watson Studio.

Я пытаюсь экспортировать фрейм данных spark в хранилище облачных объектов, и он продолжает давать сбой: enter image description here

Ноутбук не выдает ошибку.Мне удалось экспортировать меньшие фреймы данных без проблем.

Когда я проверяю хранилище объектов, там есть частичный фрейм данных.

Я экспортировал со следующим кодом:

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

from ingest.Connectors import Connectors

S3saveoptions = {
      Connectors.BluemixCloudObjectStorage.URL                      : paid_credentials['endpoint'],
      Connectors.BluemixCloudObjectStorage.IAM_URL                  : paid_credentials['iam_url'],
      Connectors.BluemixCloudObjectStorage.RESOURCE_INSTANCE_ID     : paid_credentials['resource_instance_id'],
      Connectors.BluemixCloudObjectStorage.API_KEY                  : paid_credentials['api_key'],
      Connectors.BluemixCloudObjectStorage.TARGET_BUCKET            : paid_bucket,
      Connectors.BluemixCloudObjectStorage.TARGET_FILE_NAME         : "name.csv",
      Connectors.BluemixCloudObjectStorage.TARGET_WRITE_MODE        : "write",
      Connectors.BluemixCloudObjectStorage.TARGET_FILE_FORMAT       : "csv",
      Connectors.BluemixCloudObjectStorage.TARGET_FIRST_LINE_HEADER : "true"}

name = df.write.format('com.ibm.spark.discover').options(**S3saveoptions).save()
...