Как решить проблему слишком большого объема данных в Spark? - PullRequest
0 голосов
/ 05 июля 2019

Мне нужно прочитать таблицу в базе данных Oracle через панд. При использовании метода topandas() я могу нормально читать другие таблицы, но если я читаю таблицу с большим объемом данных, вызов метода topandas () не поможет.

Попытка изменить конфигурацию задачи отправки с искровой отправкой, изменила - driver-memory на 6G - executor-memory снова запустился после 6G, и возникла та же ошибка

python: 
def loadOracle():
    df = spark.read.format('jdbc)\
        .option('url', cfg.oracle_url)\
        .option('dbtable', cfg.oracle_collections)\
        .option('user',cfg.oracle_schema_u)\
        .option('password', cfg.oracle_schema_p)\
        .option('driver', "oracle.jdbc.OracleDriver")\
        .load()
    d = df.toPandas() #DataFrame
    listDeviceCode = d['DEVICE_EAM_CODE'] #Series
    Print(listDeviceCode)
    return listDeviceCode
```
Traceback(most recent call last):
        file '/home/demo/deme_oracle',line 31, in loadOracle
         d = df.topandas()#DataFrame
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...