Для csv найдено несколько источников: readStream - PullRequest
0 голосов
/ 31 августа 2018

Я пытаюсь запустить приведенный ниже код, чтобы прочитать файл в виде информационного кадра на тему Kafka (для Spark Streaming), разработанную с помощью Eclipse IDE, с использованием Scala, соответствующим образом определяя схемы, выполняя тонкий jar на сервере с помощью spark-submit (без вызывая любые дополнительные пакеты) и получаю ошибку ниже. Попробовал предложения по исследованиям в интернете, основанные на spark.read.option.schema.csv подобных ошибках, но безуспешно.

Кто-нибудь сталкивался с подобной проблемой для Spark Streaming при использовании опции readStream ??

Ждем ваших ответов!

Ошибка:

Exception in thread "main" java.lang.RuntimeException: Multiple sources found for csv (com.databricks.spark.csv.DefaultSource15, org.apache.spark.sql.execution.datasources.csv.CSVFileFormat), please specify the fully qualified class name.

Код:

val csvdf = spark.readStream.option("sep", ",").schema(userSchema).csv("server_path") //does not resolve error
val csvdf = spark.readStream.option("sep", ",").schema(userSchema).format("com.databricks.spark.csv").csv("server_path") //does not resolve error
val csvdf = spark.readStream.option("sep", ",").schema(userSchema).csv("server_path") //does not resolve error
val csvdf = spark.readStream.option("sep", ",").schema(userSchema).format("org.apache.spark.sql.execution.datasources.csv").csv("server_path") //does not resolve error
val csvdf = spark.readStream.option("sep", ",").schema(userSchema).format("org.apache.spark.sql.execution.datasources.csv.CSVFileFormat").csv("server_path") //does not resolve error
val csvdf = spark.readStream.option("sep", ",").schema(userSchema).format("com.databricks.spark.csv.DefaultSource15").csv("server_path") //does not resolve error

1 Ответ

0 голосов
/ 01 сентября 2018

Pom.xml не имеет явного вызова jar spark-csv.

Оказывается, на пути к серверу HDP, содержащему jar-файлы для Spark2, были jar-файлы spark-csv и spark-sql, что приводило к конфликту источников для Csv. После удаления дополнительного пути spark-csv jar путь был решен.

...