Как я могу загрузить 300 ГБ файл в spark scala и записать его в базу данных, не пропуская ни одной записи? - PullRequest
0 голосов
/ 01 октября 2019

Поскольку я новичок в Spark , поэтому я пытаюсь использовать этот способ.

val df = sqlContext.read.format("csv")
                   .option("header", "true")
                   .load("/home/300gbData.csv")

df.show()
df.write
  .format("jdbc")
  .option("url", "jdbc:vertica://host:port/database")
  .option("dbtable", "table")
  .option("user", "user")
  .option("driver", "com.vertica.jdbc.Driver")
  .option("password", "password").mode("overwrite")
  .save()

1 Ответ

0 голосов
/ 01 октября 2019

Вот пример кода для загрузки данных в базу данных Cassandra с использованием Spark. Аналогичный подход для JDBC применим. Если вы упомянете имя целевой базы данных, вы получите более конкретную информацию.

...