Когда я создаю «файл» в формате ORC из источника df.write.orc("/path/to/output.orc")
, я могу прекрасно его прочитать, используя что-то вроде spark.read.orc("/path/to/output.orc")
.
Но когда файл создается или добавляется структурированным потоковым заданием, я не могу прочитать файл и сталкиваюсь со следующим сообщением:
org.apache.spark.sql.AnalysisException: Unable to infer schema for ORC at . It must be specified manually;
Однако, когда я читаю файл, используя следующий синтаксис, он отлично работает: spark.read.orc("/path/to/output.orc/*")
.
Все это происходит в HDFS. Locallt, кажется, не проблема. Есть мысли по этому поводу?