программа подсчета слов в латинской apache pig - PullRequest
0 голосов
/ 03 октября 2018

Я новичок в Apache Pig, и я не могу понять, как написать программу подсчета слов со следующими пунктами

a.При чтении из этого входного файла местоположение входного файла должно быть параметризовано в сценарии pig
c.Выполните подсчет слов (разделители слов: пробел и другие разделительные символы, такие как {,},
d. Необходимо игнорировать строки комментариев
е. Сортировать по количеству (сначала часто встречаются слова)

помощь будет оценена по достоинству.

1 Ответ

0 голосов
/ 24 октября 2018
import java.io.IOException;

import org.apache.pig.PigServer;


public class idLocal {

public static void main(String args[])
{
    try{
        PigServer pigServer = new PigServer("local");
        runIdQuery(pigServer,"/root/Desktop/FILE/sample.txt");

    }
    catch(Exception e)
    {
        System.out.print(e);
    }
}
public static void runIdQuery(PigServer pigServer,String inputFile) throws IOException{

    pigServer.registerQuery("myinput = load'"+ inputFile +"' as(line);");
    pigServer.registerQuery("words = foreach myinput generate flatten(TOKENIZE(line)) as word;");
    pigServer.registerQuery(" grpd = group words by word;");
    pigServer.registerQuery("cntd = foreach grpd generate group,COUNT(words);");
    pigServer.store("cntd", "id.out");
}
}

Вы пытаетесь Этот код должен работать .....

...