pyspark.sql.utils.AnalysisException: невозможно определить схему для паркета. Это должно быть указано вручную .; - PullRequest
0 голосов
/ 02 ноября 2018

Ответ на этот вопрос отличается от приведенного в посте выше

Я получаю сообщение об ошибке

pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'

когда я пытаюсь прочитать в файле паркетного типа, как это, используя Spark 2.1.0

data = spark.read.parquet('/myhdfs/location/')

Я проверил, и файл / таблица не пустые, глядя на таблицу импалы через Hue WebPortal. Также другие файлы, которые я храню в похожих каталогах, читаются абсолютно нормально. Для записи имена файлов содержат дефисы, но не подчеркивания или точки / точки.

Следовательно, ни один из ответов в следующем посте не применим Невозможно определить схему при загрузке файла паркета

Есть идеи?

1 Ответ

0 голосов
/ 06 ноября 2018

Оказывается, я получаю эту ошибку, потому что был другой уровень в структуре каталогов. Вот что мне было нужно:

data = spark.read.parquet('/myhdfs/location/anotherlevel/')
...