Создание фрейма данных из очень огромных таблиц - от 500 миллионов до 1 миллиарда - PullRequest
0 голосов
/ 30 марта 2019

Я пытаюсь создать фрейм данных в Pyspark из соединения с таблицей DB2 в z / OS (мейнфрейм).Я могу подключаться и создавать кадры данных для небольших таблиц с 100 миллионами, но когда таблица имеет 800 миллионов записей, она терпит неудачу с аварийным завершением -495.

как создать кадр данных в Pyspark для очень больших таблиц?

Это то, что я пробовал до сих пор .. Я также попытался включить больше столбцов разделов, не повезло.

sql_context.read.format("jdbc")
  .option("url", url)
  .option("dbtable", "(select * from table_name) AS tbl")
  .option("user", user)
  .option("partitionColumn",column_name (used primary column name))
  .option("lowerbound",1)
  .option("uuperbound",100000)
  .option("numPartitions",100)
  .option("password", password)
  .load()
...