Дрель не может прочитать большинство столбцов в Паркет, сгенерированных Spark - PullRequest
0 голосов
/ 09 февраля 2019

Я использую Drill 1.15 в распределенном режиме только поверх узлов данных (3 узла с 32 ГБ памяти каждый).Я пытаюсь прочитать файл партера, сгенерированный из задания Spark, в HDF.

Сгенерированный файл читается в spark, просто отлично, но при чтении в Drill он не работает для столбцов, за исключением нескольких.

org.apache.drill.common.exceptions.UserRemoteException: DATA_READ ERROR: возникла исключительная ситуация при чтении с диска.Файл: [имя_файла] .parquet Столбец: Начало группы строк строки: 111831 Файл: [имя_файла] .parquet Столбец: Начало группы строк строки: 111831 Фрагмент 0: 0 [Идентификатор ошибки: [Error_id] на [хосте]: 31010]

В конфигурации для сверления для dfs , у меня есть конфигурация по умолчанию для формата паркета.

Я пытаюсь выполнить простой запрос:

select * from dfs.`/hdfs/path/to/parquet/file.parquet`

Размер файла, если также в 10 с МБ не много.

Я использую версию Spark 2.3 для генерациифайл паркета с версией Drill 1.15.

Есть ли какая-либо конфигурация, которую мне не хватает, или какой-то другой пункт?

1 Ответ

0 голосов
/ 10 февраля 2019

Похоже, ошибка.
Пожалуйста, создайте Jira тикет и предоставьте файл file.parquet и файлы журнала.
Спасибо

...