У нас есть файл следующего типа:
1- Sam, Joshua , "52 DD dr,
Lake Hiawatha" , New Jersey, 07034
2- Ruchi,kumari,SNN Raj serenity,Bengaluru, 560068
Строка 1 разбита на 2 строки во внешней таблице, а остальные столбцы равны нулю в 1-й и 2-й строках. В строке находятся остальные данные.
Требуется помощь в поиске наилучшего способа загрузки в один столбец для решения этой проблемы. Прошел через пару решений в сети, но не было понятно.
Пробовал следующие опции:
1) Использовал Regex Serde
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = '"*([^"]*)"*,"*([^"]*)"*'
)
, но он не работал
2) CSVInputFormat от github https://github.com/mvallebr/CSVInputFormat
Но не в состоянии его использовать.