Невозможно определить схему загрузки паркета для Импалы. - PullRequest
1 голос
/ 24 марта 2020

Существует приложение Spark, которое загружает данные из файлов Parquet в таблицы Impala. Недавно он начал работать с этой ошибкой без каких-либо изменений кода:

Exception in thread "main" org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:185)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:185)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.execution.datasources.DataSource.getOrInferFileFormatSchema(DataSource.scala:184)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:373)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:641)

Источник данных стабилен, поскольку данные загружаются из него в Impala без каких-либо проблем другими приложениями, а сам исходный каталог не пуст (общая причина таких проблем). Сама таблица назначения пуста. Код не изменился (как я упоминал ранее) и хорошо работает для загрузки в другие таблицы. Так в чем же причина такого поведения?

...