Question

Я пытался вызвать задание mapreduce из простой java-программы в том же пакете. Я пытался ссылаться на jar-файл mapreduce в моей java-программе и вызывать его с помощью метода runJar(String args[]), также передавая ввод ипути вывода для задания mapreduce .. Но программа не работает ..

Как мне запустить такую программу, в которой я просто использую pass input, output и jar path к ее основному методу ??Возможно ли запустить задание mapreduce (jar) через него ??Я хочу сделать это, потому что я хочу запускать несколько заданий mapreduce одно за другим, где моя java-программа вызывает каждую такую работу, ссылаясь на ее файл jar. Если это становится возможным, я мог бы просто использовать простой сервлет для таких вызовови ссылайтесь на его выходные файлы для графа.

/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */

/**
 *
 * @author root
 */
import org.apache.hadoop.util.RunJar;
import java.util.*;

public class callOther {

    public static void main(String args[])throws Throwable
    {

        ArrayList arg=new ArrayList();

        String output="/root/Desktp/output";

        arg.add("/root/NetBeansProjects/wordTool/dist/wordTool.jar");

        arg.add("/root/Desktop/input");
        arg.add(output);

        RunJar.main((String[])arg.toArray(new String[0]));

    }
}

Thomas Jungblut · Answer 1 · 24 марта 2012

О, пожалуйста, не делайте этого с runJar, Java API очень хорош.

Посмотрите, как вы можете начать работу с обычного кода:

// create a configuration
Configuration conf = new Configuration();
// create a new job based on the configuration
Job job = new Job(conf);
// here you have to put your mapper class
job.setMapperClass(Mapper.class);
// here you have to put your reducer class
job.setReducerClass(Reducer.class);
// here you have to set the jar which is containing your 
// map/reduce class, so you can use the mapper class
job.setJarByClass(Mapper.class);
// key/value of your reducer output
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
// this is setting the format of your input, can be TextInputFormat
job.setInputFormatClass(SequenceFileInputFormat.class);
// same with output
job.setOutputFormatClass(TextOutputFormat.class);
// here you can set the path of your input
SequenceFileInputFormat.addInputPath(job, new Path("files/toMap/"));
// this deletes possible output paths to prevent job failures
FileSystem fs = FileSystem.get(conf);
Path out = new Path("files/out/processed/");
fs.delete(out, true);
// finally set the empty out path
TextOutputFormat.setOutputPath(job, out);

// this waits until the job completes and prints debug out to STDOUT or whatever
// has been configured in your log4j properties.
job.waitForCompletion(true);

Если вы используете внешний кластер, вы должны добавить следующую информацию в вашу конфигурацию через:

// this should be like defined in your mapred-site.xml
conf.set("mapred.job.tracker", "jobtracker.com:50001"); 
// like defined in hdfs-site.xml
conf.set("fs.default.name", "hdfs://namenode.com:9000");

Это не должно быть проблемой, если hadoop-core.jar находится в пути к классу контейнера вашего приложения. Но я думаю, что вы должны поместить какой-то индикатор прогресса на свою веб-страницу, потому что выполнение задания hadoop может занять несколько минут;)

Для YARN (> Hadoop 2)

Для YARN необходимо установить следующие конфигурации.

// this should be like defined in your yarn-site.xml
conf.set("yarn.resourcemanager.address", "yarn-manager.com:50001"); 

// framework is now "yarn", should be defined like this in mapred-site.xm
conf.set("mapreduce.framework.name", "yarn");

// like defined in hdfs-site.xml
conf.set("fs.default.name", "hdfs://namenode.com:9000");

RS Software -Competency Team · Answer 2 · 18 ноября 2013

Вызов задания MapReduce из веб-приложения Java (сервлет)

Вы можете вызвать задание MapReduce из веб-приложения с помощью Java API.Вот небольшой пример вызова задания MapReduce из сервлета.Шаги приведены ниже:

Шаг 1 : Сначала создайте класс сервлета драйвера MapReduce.Также разработайте карту и уменьшите сервис.Вот пример кода:

CallJobFromServlet.java

    public class CallJobFromServlet extends HttpServlet {

    protected void doPost(HttpServletRequest request,HttpServletResponse response) throws ServletException, IOException {

    Configuration conf = new Configuration();
    // Replace CallJobFromServlet.class name with your servlet class
        Job job = new Job(conf, " CallJobFromServlet.class"); 
        job.setJarByClass(CallJobFromServlet.class);
        job.setJobName("Job Name");
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        job.setMapperClass(Map.class); // Replace Map.class name with your Mapper class
        job.setNumReduceTasks(30);
        job.setReducerClass(Reducer.class); //Replace Reduce.class name with your Reducer class
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);

        // Job Input path
        FileInputFormat.addInputPath(job, new  
        Path("hdfs://localhost:54310/user/hduser/input/")); 
        // Job Output path
        FileOutputFormat.setOutputPath(job, new 
        Path("hdfs://localhost:54310/user/hduser/output")); 

        job.waitForCompletion(true);
   }
}

Шаг 2 : поместите все связанные файлы (hadoop, специфичные для приложенияjars) файлы в папке lib веб-сервера (например, Tomcat).Это обязательно для доступа к конфигурациям Hadoop (папка hadoop 'conf' содержит файлы конфигурации xml, т.е. core-site.xml, hdfs-site.xml и т. Д.).Просто скопируйте файлы из папки lib lib hadoop в папку lib веб-сервера (tomcat).Список имен банок выглядит следующим образом:

1.  commons-beanutils-1.7.0.jar
2.  commons-beanutils-core-1.8.0.jar
3.  commons-cli-1.2.jar
4.  commons-collections-3.2.1.jar
5.  commons-configuration-1.6.jar
6.  commons-httpclient-3.0.1.jar
7.  commons-io-2.1.jar
8.  commons-lang-2.4.jar
9.  commons-logging-1.1.1.jar
10. hadoop-client-1.0.4.jar
11. hadoop-core-1.0.4.jar
12. jackson-core-asl-1.8.8.jar
13. jackson-mapper-asl-1.8.8.jar
14. jersey-core-1.8.jar

Шаг 3 : развертывание веб-приложения на веб-сервере (в папке «веб-приложения» для Tomcat).

Шаг 4 : создайте файл jsp и свяжите класс сервлета (CallJobFromServlet.java) в атрибуте действия формы.Вот пример кода:

Index.jsp

<form id="trigger_hadoop" name="trigger_hadoop" action="./CallJobFromServlet ">
      <span class="back">Trigger Hadoop Job from Web Page </span> 
      <input type="submit" name="submit" value="Trigger Job" />      
</form>

Jiang Libo · Answer 3 · 26 ноября 2015

Поскольку отображение и уменьшение запуска на разных машинах, все ваши классы и файлы, на которые есть ссылки, должны перемещаться с машины на машину.

Если у вас есть пакет jar, и вы работаете на своем рабочем столе, ответ @ ThomasJungblut в порядке. Но если вы работаете в Eclipse, щелкните правой кнопкой мыши по своему классу и запустите, это не сработает.

Вместо:

job.setJarByClass(Mapper.class);

Использование:

job.setJar("build/libs/hdfs-javac-1.0.jar");

В то же время манифест вашей банки должен содержать свойство Main-Class, которое является вашим основным классом.

Для пользователей Gradle, можно поместить эти строки в build.gradle:

jar {
manifest {
    attributes("Main-Class": mainClassName)
}}

faridasabry · Answer 4 · 10 февраля 2013

Другой способ для заданий, уже реализованных в примерах hadoop, а также требует импорта jar-файлов hadoop. Затем просто вызовите статическую основную функцию нужного класса заданий с соответствующей строкой [] аргументов

techlearner · Answer 5 · 05 августа 2014

Вы можете сделать таким образом

public class Test {

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new Configuration(), new YourJob(), args);
        System.exit(res);

    }

Chris White · Answer 6 · 24 марта 2012

Я не могу придумать много способов, как вы можете сделать это, не задействуя библиотеку hadoop-core (или, как сказал @ThomasJungblut, почему вы этого хотите).

Но если вам абсолютно необходимо, вы можете настроить сервер Oozie с рабочим процессом для своей работы, а затем использовать интерфейс веб-службы Oozie для отправки рабочего процесса в Hadoop.

Опять же, это похоже на большую работу для чего-то, что может быть просто решено с помощью ответа Томаса (включая jar-ядро hadoop и использовать его фрагмент кода)

Вызов задания mapreduce из простой Java-программы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Вызов задания mapreduce из простой Java-программы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы