Какие символы и формат мы можем использовать для указания разделителя для таблицы Hive? - PullRequest
0 голосов
/ 10 декабря 2018

Я работаю над импортом данных из Mysql в Hive с использованием Sqoop.

Однако у меня возникают некоторые проблемы с разделителями.На самом деле, я знаю, что смогу решить свою проблему, используя правильный разделитель для моей таблицы Hive, поэтому он будет хорошо читать файлы, которые я ему подаю.

Но я искал несколько часов и все ещене могу найти какую-либо документацию о том, какие символы я мог бы использовать в качестве разделителя полей?!

Не могли бы вы помочь мне точно определить, какие символы я могу использовать в качестве разделителя полей?и какой формат / кодировку использовать для его указания?

В официальной документации Hive по слиянию я могу найти только следующее:

    row_format
  : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]
        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
        [NULL DEFINED AS char]   -- (Note: Available in Hive 0.13 and later)
  | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

Но что означает "char"?

Заранее спасибо!

1 Ответ

0 голосов
/ 10 декабря 2018

[ПОЛЯ, ПРЕКРАЩЕННЫЕ char [ESCAPED BY char]] В этом символе означает любой символ .Чаще всего используется запятая (,) как в CSV-файле (файлы, разделенные запятыми)

Однако я не могу понять, если вы sqooping Data из MySQL, почему вы заботитесь о полеРазделитель?

Либо создайте таблицу в формате ORC и поместите в нее данные.Или вы можете создать таблицу при импорте данных.

mysql_connection="jdbc:mysql://server/db_name"

sqoop import \
--connect $mysql_connection \
--username=mysql_username \
--password=mysql_password \
--table batch_control_execution \
--hcatalog-database temp \
--hcatalog-table mysql_batch_control \
-m 1

Добавить следующий параметр в создать таблицу

--create-hcatalog-table 

И добавить следующий параметр в указать формат.

--hcatalog-storage-stanza \
'stored as orc tblproperties ("orc.compress"="SNAPPY")' 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...