Я открываю несколько файлов "csv" в Spark 2.2, но когда я делаю "подсчет", он возвращает 10000000 записей, тогда как на самом деле это 6000000 записей, когда я проверяю его с помощью Pandas в python или Alteryx, он выдает правильныйномер.
scala> val df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema","true").option("encoding", "UTF-8").load("/detalle/*.csv")
df: org.apache.spark.sql.DataFrame = [KEY: string, UNIQ: string ... 101 more fields]
scala> df.count
res13: Long = 10093371