Я новичок в pig и пытаюсь справиться с этим, и в настоящее время я пытаюсь объединить четыре CSV-файла, связанные по movieId.
![moviesNew.csv](https://i.stack.imgur.com/nOPc0.png)
![ratingNew.csv](https://i.stack.imgur.com/YBiwx.png)
![tagsNew.csv](https://i.stack.imgur.com/pD6PW.png)
![linksNew.csv](https://i.stack.imgur.com/e0Um7.png)
Я хочу этотак что они все перебираются без дублирования movieId.
Я попробовал:
moviesNew = LOAD 'moviesNew.csv' USING PigStorage(',') as (movieId:int, title:chararray, genres:chararray);
ratingsNew = LOAD 'ratingsNew.csv' USING PigStorage(',') as (userId:int, movieId:int, rating:int, timestamp:int);
tagsNew = LOAD 'tagsNew.csv' USING PigStorage(',') as (userId:int, movieId:int, tag:chararray, timestamp:int);
linksNew = LOAD 'linksNew.csv' USING PigStorage(',') as (movieId:int, imdbId:int, tmdbId:int);
joined = JOIN moviesNew by movieId, ratingsNew by movieId, tagsNew by movieId, linksNew by movieId;
dump joined;
Но когда я его сбрасываю, я не совсем уверен, сработало ли это или нет.