Как получить текстовые байты, используемые строкой в ​​Hive? - PullRequest
0 голосов
/ 13 июня 2019

У меня есть некоторые данные в таблице Hive 1.2.1.Я должен получить сырые байты определенного столбца.Данные столбца в формате HTML на нескольких языках.Чтобы получить длину символов, я могу использовать простой запрос, подобный приведенному нижеДля персонажа на арабском языке он сохраняется как unicoded, поэтому длина символа изменяется.Некоторые символы имеют два байта, а некоторые - один байт.

Существует ли какая-либо встроенная функция, позволяющая узнать байты текста вместо символов?

1 Ответ

0 голосов
/ 13 июня 2019

Функция character_length(string str) была добавлена ​​в Jira HIVE-15979 И там написано исправление версии 2.3.0. Если вы не можете обновить Hive (а это довольно рискованно), попробуйте загрузить исходные коды UDF и собрать его, затем добавьте jar и создайте временную функцию.

Код загрузки: GenericUDFCharacterLength.java

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...