Выберите двоичные данные из паркета, используя Drill - PullRequest
0 голосов
/ 01 октября 2018

У меня есть набор данных паркета, где я сохранил массив byte_array.

Я использую Apache Drill для запроса набора данных:

SELECT id, x, y FROM `dfs.root`.`./data`

Это дает мне:

+--------------------------------------+-------------+-------------+
|                  ID                  |      X      |      Y      |
+--------------------------------------+-------------+-------------+
| 0A3D27D8-DEC5-54D6-6A8E-8FD5CF721E1C | [B@654e7f63 | [B@39a668e8 |
+--------------------------------------+-------------+-------------+

Как преобразовать идентификатор двоичного объекта для реального Python byte_array при запросе с PyDrill?

1 Ответ

0 голосов
/ 02 октября 2018
SELECT id, CONVERT_FROM(x, 'UTF8') as x, CONVERT_FROM(y, 'UTF8') as y FROM `dfs.root`.`./data`

Вы можете найти эту информацию в документации Apache Drill:
https://drill.apache.org/docs/data-type-conversion/#convert_to-and-convert_from

Я думаю, вы имеете в виду fixed_len_byte_array.Это примитивный тип данных Parquet.Может использоваться для логических типов данных INTERVAL и DECIMAL .Похоже, Drill поддерживает их обоих из коробки.Если вы не указали логический тип данных для fixed_len_byte_array, неясно, как интерпретировать эти данные.

...