Попытка объединить четыре файла CSV в один, используя свинью с общим столбцом - PullRequest
0 голосов
/ 04 ноября 2019

Я новичок в pig и пытаюсь справиться с этим, и в настоящее время я пытаюсь объединить четыре CSV-файла, связанные по movieId.

moviesNew.csv

ratingNew.csv

tagsNew.csv

linksNew.csv

Я хочу этотак что они все перебираются без дублирования movieId.

Я попробовал:

moviesNew = LOAD 'moviesNew.csv' USING PigStorage(',') as (movieId:int, title:chararray, genres:chararray);

ratingsNew = LOAD 'ratingsNew.csv' USING PigStorage(',') as (userId:int, movieId:int, rating:int, timestamp:int);

tagsNew = LOAD 'tagsNew.csv' USING PigStorage(',') as (userId:int, movieId:int, tag:chararray, timestamp:int);

linksNew = LOAD 'linksNew.csv' USING PigStorage(',') as (movieId:int, imdbId:int, tmdbId:int);

joined = JOIN moviesNew by movieId, ratingsNew by movieId, tagsNew by movieId, linksNew by movieId;

dump joined;

Но когда я его сбрасываю, я не совсем уверен, сработало ли это или нет.

...