Я новичок в pig и пытаюсь справиться с этим, и в настоящее время я пытаюсь объединить четыре CSV-файла, связанные по movieId.
Я хочу этотак что они все перебираются без дублирования movieId.
Я попробовал:
moviesNew = LOAD 'moviesNew.csv' USING PigStorage(',') as (movieId:int, title:chararray, genres:chararray);
ratingsNew = LOAD 'ratingsNew.csv' USING PigStorage(',') as (userId:int, movieId:int, rating:int, timestamp:int);
tagsNew = LOAD 'tagsNew.csv' USING PigStorage(',') as (userId:int, movieId:int, tag:chararray, timestamp:int);
linksNew = LOAD 'linksNew.csv' USING PigStorage(',') as (movieId:int, imdbId:int, tmdbId:int);
joined = JOIN moviesNew by movieId, ratingsNew by movieId, tagsNew by movieId, linksNew by movieId;
dump joined;
Но когда я его сбрасываю, я не совсем уверен, сработало ли это или нет.