Spark dataframe из csv count, возвращает неверный результат - PullRequest
0 голосов
/ 26 ноября 2018

Я открываю несколько файлов "csv" в Spark 2.2, но когда я делаю "подсчет", он возвращает 10000000 записей, тогда как на самом деле это 6000000 записей, когда я проверяю его с помощью Pandas в python или Alteryx, он выдает правильныйномер.

  scala> val df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema","true").option("encoding", "UTF-8").load("/detalle/*.csv")
  df: org.apache.spark.sql.DataFrame = [KEY: string, UNIQ: string ... 101 more fields]

  scala> df.count
  res13: Long = 10093371

1 Ответ

0 голосов
/ 27 ноября 2018

Despues de mucho buscar y probar, encontre la respuesta en este post:

Чтение CSV-файлов с полями в кавычках, содержащих встроенные запятые

La linea final quedo de lasiguiente forma:

  val df = spark.read.format("com.databricks.spark.csv").option("wholeFile", true).option("multiline",true).option("header", true).option("inferSchema", "true").option("delimiter", ",").option("encoding", "ISO-8859-1").option("charset", "ISO-8859-1").option("quote", "\"").option("escape", "\"").load("*.csv")

Спасибо!

...