Загрузка в новую строку символа из файла CSV - PullRequest
0 голосов
/ 13 марта 2020

У нас есть файл следующего типа:

1- Sam, Joshua , "52 DD dr,
   Lake Hiawatha" , New Jersey, 07034 
2- Ruchi,kumari,SNN Raj serenity,Bengaluru, 560068

Строка 1 разбита на 2 строки во внешней таблице, а остальные столбцы равны нулю в 1-й и 2-й строках. В строке находятся остальные данные.

Требуется помощь в поиске наилучшего способа загрузки в один столбец для решения этой проблемы. Прошел через пару решений в сети, но не было понятно.

Пробовал следующие опции:

1) Использовал Regex Serde

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' 
WITH SERDEPROPERTIES (
"input.regex" = '"*([^"]*)"*,"*([^"]*)"*'
)

, но он не работал

2) CSVInputFormat от github https://github.com/mvallebr/CSVInputFormat

Но не в состоянии его использовать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...