Типизация Dataframe возвращает пустое значение для пустых полей - PullRequest
0 голосов
/ 30 мая 2018

По умолчанию в таблицы кустов загружены необработанные данные со всеми столбцами в виде строк.Теперь мне нужно изменить типы данных таблиц кустов для экспорта в SQLServer.При Typecasting столбцов куста пустые поля возвращают 'NULL', пытались загрузить таблицы кустов в dataframe и типизировать столбцы, но все еще dataframe также возвращает 'null' для пустых полей.SQLserver не может распознать такие значения.

Может кто-нибудь предложить решение, позволяющее избежать отображения «нулевых» значений при отображении данных из куста или фреймов данных.

1 Ответ

0 голосов
/ 30 мая 2018

Если вы хотите изменить тип данных только потому, что хотите иметь этот конкретный формат в экспортируемых данных, рассмотрите возможность записи в каталог согласно вашему требованию, а затем экспортируйте с помощью sqoop / любого другого инструмента.

INSERT OVERWRITE DIRECTORY '<HDFS path>'
Row format delimited
Fields terminated by '<delimiter>'
SELECT
a,
b
From
table_name
Where <condition>;

При экспорте, если у вас есть нулевые значения, рассмотрите возможность использования этих аргументов в вашей команде sqoop

--null-string "\\N" --null-non-string "\\N"

Надеюсь, это поможет вам

...