Вызов задания mapreduce из простой Java-программы - PullRequest
21 голосов
/ 24 марта 2012

Я пытался вызвать задание mapreduce из простой java-программы в том же пакете. Я пытался ссылаться на jar-файл mapreduce в моей java-программе и вызывать его с помощью метода runJar(String args[]), также передавая ввод ипути вывода для задания mapreduce .. Но программа не работает ..


Как мне запустить такую ​​программу, в которой я просто использую pass input, output и jar path к ее основному методу ??Возможно ли запустить задание mapreduce (jar) через него ??Я хочу сделать это, потому что я хочу запускать несколько заданий mapreduce одно за другим, где моя java-программа вызывает каждую такую ​​работу, ссылаясь на ее файл jar. Если это становится возможным, я мог бы просто использовать простой сервлет для таких вызовови ссылайтесь на его выходные файлы для графа.


/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */

/**
 *
 * @author root
 */
import org.apache.hadoop.util.RunJar;
import java.util.*;

public class callOther {

    public static void main(String args[])throws Throwable
    {

        ArrayList arg=new ArrayList();

        String output="/root/Desktp/output";

        arg.add("/root/NetBeansProjects/wordTool/dist/wordTool.jar");

        arg.add("/root/Desktop/input");
        arg.add(output);

        RunJar.main((String[])arg.toArray(new String[0]));

    }
}

Ответы [ 6 ]

31 голосов
/ 24 марта 2012

О, пожалуйста, не делайте этого с runJar, Java API очень хорош.

Посмотрите, как вы можете начать работу с обычного кода:

// create a configuration
Configuration conf = new Configuration();
// create a new job based on the configuration
Job job = new Job(conf);
// here you have to put your mapper class
job.setMapperClass(Mapper.class);
// here you have to put your reducer class
job.setReducerClass(Reducer.class);
// here you have to set the jar which is containing your 
// map/reduce class, so you can use the mapper class
job.setJarByClass(Mapper.class);
// key/value of your reducer output
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
// this is setting the format of your input, can be TextInputFormat
job.setInputFormatClass(SequenceFileInputFormat.class);
// same with output
job.setOutputFormatClass(TextOutputFormat.class);
// here you can set the path of your input
SequenceFileInputFormat.addInputPath(job, new Path("files/toMap/"));
// this deletes possible output paths to prevent job failures
FileSystem fs = FileSystem.get(conf);
Path out = new Path("files/out/processed/");
fs.delete(out, true);
// finally set the empty out path
TextOutputFormat.setOutputPath(job, out);

// this waits until the job completes and prints debug out to STDOUT or whatever
// has been configured in your log4j properties.
job.waitForCompletion(true);

Если вы используете внешний кластер, вы должны добавить следующую информацию в вашу конфигурацию через:

// this should be like defined in your mapred-site.xml
conf.set("mapred.job.tracker", "jobtracker.com:50001"); 
// like defined in hdfs-site.xml
conf.set("fs.default.name", "hdfs://namenode.com:9000");

Это не должно быть проблемой, если hadoop-core.jar находится в пути к классу контейнера вашего приложения. Но я думаю, что вы должны поместить какой-то индикатор прогресса на свою веб-страницу, потому что выполнение задания hadoop может занять несколько минут;)

Для YARN (> Hadoop 2)

Для YARN необходимо установить следующие конфигурации.

// this should be like defined in your yarn-site.xml
conf.set("yarn.resourcemanager.address", "yarn-manager.com:50001"); 

// framework is now "yarn", should be defined like this in mapred-site.xm
conf.set("mapreduce.framework.name", "yarn");

// like defined in hdfs-site.xml
conf.set("fs.default.name", "hdfs://namenode.com:9000");
7 голосов
/ 18 ноября 2013

Вызов задания MapReduce из веб-приложения Java (сервлет)

Вы можете вызвать задание MapReduce из веб-приложения с помощью Java API.Вот небольшой пример вызова задания MapReduce из сервлета.Шаги приведены ниже:

Шаг 1 : Сначала создайте класс сервлета драйвера MapReduce.Также разработайте карту и уменьшите сервис.Вот пример кода:

CallJobFromServlet.java

    public class CallJobFromServlet extends HttpServlet {

    protected void doPost(HttpServletRequest request,HttpServletResponse response) throws ServletException, IOException {

    Configuration conf = new Configuration();
    // Replace CallJobFromServlet.class name with your servlet class
        Job job = new Job(conf, " CallJobFromServlet.class"); 
        job.setJarByClass(CallJobFromServlet.class);
        job.setJobName("Job Name");
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        job.setMapperClass(Map.class); // Replace Map.class name with your Mapper class
        job.setNumReduceTasks(30);
        job.setReducerClass(Reducer.class); //Replace Reduce.class name with your Reducer class
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);

        // Job Input path
        FileInputFormat.addInputPath(job, new  
        Path("hdfs://localhost:54310/user/hduser/input/")); 
        // Job Output path
        FileOutputFormat.setOutputPath(job, new 
        Path("hdfs://localhost:54310/user/hduser/output")); 

        job.waitForCompletion(true);
   }
}

Шаг 2 : поместите все связанные файлы (hadoop, специфичные для приложенияjars) файлы в папке lib веб-сервера (например, Tomcat).Это обязательно для доступа к конфигурациям Hadoop (папка hadoop 'conf' содержит файлы конфигурации xml, т.е. core-site.xml, hdfs-site.xml и т. Д.).Просто скопируйте файлы из папки lib lib hadoop в папку lib веб-сервера (tomcat).Список имен банок выглядит следующим образом:

1.  commons-beanutils-1.7.0.jar
2.  commons-beanutils-core-1.8.0.jar
3.  commons-cli-1.2.jar
4.  commons-collections-3.2.1.jar
5.  commons-configuration-1.6.jar
6.  commons-httpclient-3.0.1.jar
7.  commons-io-2.1.jar
8.  commons-lang-2.4.jar
9.  commons-logging-1.1.1.jar
10. hadoop-client-1.0.4.jar
11. hadoop-core-1.0.4.jar
12. jackson-core-asl-1.8.8.jar
13. jackson-mapper-asl-1.8.8.jar
14. jersey-core-1.8.jar

Шаг 3 : развертывание веб-приложения на веб-сервере (в папке «веб-приложения» для Tomcat).

Шаг 4 : создайте файл jsp и свяжите класс сервлета (CallJobFromServlet.java) в атрибуте действия формы.Вот пример кода:

Index.jsp

<form id="trigger_hadoop" name="trigger_hadoop" action="./CallJobFromServlet ">
      <span class="back">Trigger Hadoop Job from Web Page </span> 
      <input type="submit" name="submit" value="Trigger Job" />      
</form>
1 голос
/ 26 ноября 2015

Поскольку отображение и уменьшение запуска на разных машинах, все ваши классы и файлы, на которые есть ссылки, должны перемещаться с машины на машину.

Если у вас есть пакет jar, и вы работаете на своем рабочем столе, ответ @ ThomasJungblut в порядке. Но если вы работаете в Eclipse, щелкните правой кнопкой мыши по своему классу и запустите, это не сработает.

Вместо:

job.setJarByClass(Mapper.class);

Использование:

job.setJar("build/libs/hdfs-javac-1.0.jar");

В то же время манифест вашей банки должен содержать свойство Main-Class, которое является вашим основным классом.

Для пользователей Gradle, можно поместить эти строки в build.gradle:

jar {
manifest {
    attributes("Main-Class": mainClassName)
}}
1 голос
/ 10 февраля 2013

Другой способ для заданий, уже реализованных в примерах hadoop, а также требует импорта jar-файлов hadoop. Затем просто вызовите статическую основную функцию нужного класса заданий с соответствующей строкой [] аргументов

0 голосов
/ 05 августа 2014

Вы можете сделать таким образом

public class Test {

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new Configuration(), new YourJob(), args);
        System.exit(res);

    }
0 голосов
/ 24 марта 2012

Я не могу придумать много способов, как вы можете сделать это, не задействуя библиотеку hadoop-core (или, как сказал @ThomasJungblut, почему вы этого хотите).

Но если вам абсолютно необходимо, вы можете настроить сервер Oozie с рабочим процессом для своей работы, а затем использовать интерфейс веб-службы Oozie для отправки рабочего процесса в Hadoop.

Опять же, это похоже на большую работу для чего-то, что может быть просто решено с помощью ответа Томаса (включая jar-ядро hadoop и использовать его фрагмент кода)

...