Файл ORC читается только подстановочным знаком в папке после структурированной потоковой передачи - PullRequest
0 голосов
/ 07 июня 2019

Когда я создаю «файл» в формате ORC из источника df.write.orc("/path/to/output.orc"), я могу прекрасно его прочитать, используя что-то вроде spark.read.orc("/path/to/output.orc").

Но когда файл создается или добавляется структурированным потоковым заданием, я не могу прочитать файл и сталкиваюсь со следующим сообщением:

org.apache.spark.sql.AnalysisException: Unable to infer schema for ORC at . It must be specified manually;

Однако, когда я читаю файл, используя следующий синтаксис, он отлично работает: spark.read.orc("/path/to/output.orc/*").

Все это происходит в HDFS. Locallt, кажется, не проблема. Есть мысли по этому поводу?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...