Обработка символов новой строки в импорте sqoop в hdfs - PullRequest
0 голосов
/ 05 ноября 2018

У меня есть ситуация, когда нужно перенести данные в hdfs из postgres с помощью sqoop, скопировать этот файл в s3 и создать внешнюю таблицу Hive. Проблема в том, что в нескольких полях в postgres у меня есть символ новой строки в данных. Как я могу справиться с этим, чтобы перейти на HDFS? Я понимаю, что это можно сделать в Hive, но нужно, как это можно сделать в HDFS.

Ищу помощи ....

1 Ответ

0 голосов
/ 02 февраля 2019

Текстовые поля с символами новой строки в них могут быть обработаны sqoop, выбрав вместо текста ORC или avro-файлы.

Кстати, если вы хотите соединить postgres и hdf для импорта / экспорта данных из postgres, я рекомендую вам взглянуть на apache spark, в частности на библиотеку spark-postgres , которая поддерживает переводы строк в текстовом формате.

...