Я использую Drill 1.15 в распределенном режиме только поверх узлов данных (3 узла с 32 ГБ памяти каждый).Я пытаюсь прочитать файл партера, сгенерированный из задания Spark, в HDF.
Сгенерированный файл читается в spark, просто отлично, но при чтении в Drill он не работает для столбцов, за исключением нескольких.
org.apache.drill.common.exceptions.UserRemoteException: DATA_READ ERROR: возникла исключительная ситуация при чтении с диска.Файл: [имя_файла] .parquet Столбец: Начало группы строк строки: 111831 Файл: [имя_файла] .parquet Столбец: Начало группы строк строки: 111831 Фрагмент 0: 0 [Идентификатор ошибки: [Error_id] на [хосте]: 31010]
В конфигурации для сверления для dfs , у меня есть конфигурация по умолчанию для формата паркета.
Я пытаюсь выполнить простой запрос:
select * from dfs.`/hdfs/path/to/parquet/file.parquet`
Размер файла, если также в 10 с МБ не много.
Я использую версию Spark 2.3 для генерациифайл паркета с версией Drill 1.15.
Есть ли какая-либо конфигурация, которую мне не хватает, или какой-то другой пункт?