Разделенный запятыми список с AvroStorage в Свинья - PullRequest
1 голос
/ 24 января 2012

Я пытался загрузить несколько файлов с AvroStorage в Pig, используя список через запятую.Я использовал следующий оператор:

test_data= LOAD 'repo_1/part-r-00000.avro,repo_2/part-r-00000.avro' USING org.apache.pig.piggybank.storage.avro.AvroStorage();

Свинья утверждает, что в задании не указаны пути ввода.Пожалуйста, смотрите трассировку стека ниже.Я пробовал pig версии 0.8.1-cdh3u2 и 0.9.1.

Кто-нибудь наблюдает такое же поведение?Это ошибка или особенность?

Stacktrace:

rg.apache.pig.backend.executionengine.ExecException: ERROR 2118: No input paths specified in job
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:282)
    at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:885)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:779)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
    at org.apache.hadoop.mapred.jobcontrol.Job.submit(Job.java:378)
    at org.apache.hadoop.mapred.jobcontrol.JobControl.startReadyJobs(JobControl.java:247)
    at org.apache.hadoop.mapred.jobcontrol.JobControl.run(JobControl.java:279)
    at java.lang.Thread.run(Thread.java:679)
Caused by: java.io.IOException: No input paths specified in job
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:186)
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:241)
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:270)
    ... 7 more

1 Ответ

0 голосов
/ 24 июня 2013

Эти файлы деталей загружаются Pig автоматически, поэтому вам нужно только указать каталог.

Попробуйте

test_file1 = LOAD 'repo_1' using AvroStorage();
test_file2 = LOAD 'repo_2' using AvroStorage();
test_file = UNION test_file1, test_file2;
...