Разделить данные по именам строк и загрузить в папку с одинаковыми именами строк, используя PIG - PullRequest
0 голосов
/ 21 мая 2019

У меня есть текстовый файл, который выглядит как

P0000X4SRN4H|PR|18.16129|-66.72835|728402000004797|Quebrada la Pastora|72.98479461669922|imgn19w062_13.img|1
P0000X4SRMQ5|PR|18.1619|-66.72427|728402000003808|Rio Cidra|335.3082275390625|imgn19w061_13.img|1
P0000X4SRMXN|PR|18.16106|-66.72144|728402000004007|Rio Cidra|143.83212280273438|imgn19w067_13.img|1
P0000X4SRMP5|PR|18.16221|-66.72382|728402000003318|Quebrada Muerto|451.31011962890625|imgn19w067_13.img|1
P0000X4SRMMC|PR|18.16377|-66.72496|728402000003318|Quebrada Muerto|102.55789947509766|imgn19w065_13.img|1
P0000X4SRMLA|PR|18.1592|-66.71959|728402000006409|Rio Cidra|254.85401916503906|imgn19w069_13.img|1
P0000X4SRMRC|PR|18.16403|-66.72557|728402000003318|Quebrada Muerto|284.13861083984375|imgn19w061_13.img|1

Я хочу разделить данные по столбцу № 7, который содержит 'imgn19w067_13.img', 'imgn19w061_13.img' такого рода значения. Мне нужно создатьСценарий PIG, который создает имя папки 'imgn19w061_13.img' и помещает все данные (строки), содержащие это значение, в столбец № 7. Я новичок в PIG.Любая помощь высоко ценится.

Примечание: - Было бы так хорошо, если бы имя папки выглядело так imgn19w061_13 , а не imgn19w061_13.img

Вывод:

Имя папки imgn19w061_13

содержит текстовый файл с этими строками

P0000X4SRMRC|PR|18.16403|-66.72557|728402000003318|Quebrada Muerto|284.13861083984375|imgn19w061_13.img|1
P0000X4SRMRC|PR|18.16403|-66.72557|728402000003318|Quebrada Muerto|284.13861083984375|imgn19w061_13.img|1
...