Question

Когда я создаю «файл» в формате ORC из источника df.write.orc("/path/to/output.orc"), я могу прекрасно его прочитать, используя что-то вроде spark.read.orc("/path/to/output.orc").

Но когда файл создается или добавляется структурированным потоковым заданием, я не могу прочитать файл и сталкиваюсь со следующим сообщением:

org.apache.spark.sql.AnalysisException: Unable to infer schema for ORC at . It must be specified manually;

Однако, когда я читаю файл, используя следующий синтаксис, он отлично работает: spark.read.orc("/path/to/output.orc/*").

Все это происходит в HDFS. Locallt, кажется, не проблема. Есть мысли по этому поводу?

Файл ORC читается только подстановочным знаком в папке после структурированной потоковой передачи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Файл ORC читается только подстановочным знаком в папке после структурированной потоковой передачи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы