Работа с файлом на HDFS
, который содержит различное количество полей, разделенных ','.Например:
uid1, eid01, para1, para2, para3,para4,para5,timestamp
uid1, eid12, para56, para57, timestamp
uid3, eid42, para102,timestamp
Количество полей не фиксировано.
Теперь я хочу поместить эти данные в таблицу Hive
, которая имеет 4 столбца и все поля 'para..'
в одном столбце, например:
uid eid para datatime
uid1 eid01 para1, para2, para3,para4,para5 timestamp
uid1 eid12 para56, para57 timestamp
uid3 eid42 para102 timestamp
Объем данных настолько велик, что я не могу справиться с ним с помощью таких инструментов, как AWK
.Есть ли другое решение?
Любая помощь приветствуется.