Ошибка «IllegalStateException» для конвейера Apache Beam для чтения из csv-файла, split, groupbyKey и записи в текстовый файл.Зачем? - PullRequest
0 голосов
/ 22 октября 2018

Мои входные данные выглядят следующим образом:

id,vin,url,exteriorColor,interiorColor,design,transmission,lastcrawled,mileage,price,certified,dealerId,historyType,MSRP
114722309,19XVC2F35PR012846,http://www.pohankaacura.com/auto/used-2017-acura-ilx-chantilly-va-near-buckeystown-md/24742881/,Modern Steel,graystone,0,8-Speed Dual-Clutch,2018-02-05 01:49:47 UTC,1646,22550,0,28453

Я хочу построить конвейер Beam, который будет считывать эти данные из файла CSV, захватывать vin и подсчитывать, сколько раз vin встречался в файле,Поэтому я хочу сгруппировать по VIN и рассчитать количество.Я хочу, чтобы мой окончательный вывод был в плоском файле.Я пропустил аннотацию, поэтому я добавил ее сейчас, но я получаю другую ошибку и не могу найти решение здесь.Ниже мой код.

import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.io.TextIO;
import org.apache.beam.sdk.options.PipelineOptions;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.transforms.*;
import org.apache.beam.sdk.values.KV;

public class p1 {
    public static void main(String[] args) {
        PipelineOptions options = PipelineOptionsFactory.create();

        Pipeline p = Pipeline.create(options);
        p.apply(TextIO.read().from("~/slow_storage_drive/beam_test_files/one_vin.csv"))

                .apply("Parse&ConvertToKV", MapElements.via(
                        new SimpleFunction<String, KV<String, Integer>>() {
                            public KV<String, Integer> apply(String input){
                                String[] split = input.split(",");
                                String key = split[1];
                                Integer value = 1;
                                return KV.of(key, value);
                            }
                        }
                ))

                .apply(GroupByKey.<String, Integer>create())


                .apply("SumOfValuesByKey", ParDo.of(new DoFn<KV<String, Iterable<Integer>>, String>() {
                    @ProcessElement
                    public void processElement(ProcessContext context) {
                        Integer crawlCount = 0;
                        String vin = context.element().getKey();
                        Iterable<Integer> counts = context.element().getValue();
                        for (Integer count : counts){
                            crawlCount += count;
                        }
                        context.output(vin + ": " + crawlCount);
                    }
                }))

                .apply(TextIO.write().to("~/slow_storage_drive/beam_example_files/emr_beam_test/final_output").withoutSharding());

        p.run().waitUntilFinish();
    }

}

Я пытаюсь запустить программу, используя следующую команду:

mvn compile -X exec:java -Dexec.mainClass=p1 -Pdirect-runner

Я получаю следующую ошибку:

[ERROR] Failed to execute goal org.codehaus.mojo:exec-maven-plugin:1.6.0:java (default-cli) on project emr_beam_test: An exception occured while executing the Java class. java.lang.IllegalStateException: Invisible parameter type of p1$2 arg0 for public p1$2$DoFnInvoker(p1$2) -> [Help 1]

Я не могу понятьчто я делаю не такКто-нибудь может мне помочь, пожалуйста!

Ответы [ 2 ]

0 голосов
/ 22 октября 2018

Кажется, я получаю исключение невидимого типа параметра, потому что Apache Beam еще не поддерживает Java 10.Я изменил свой JAVA_HOME, чтобы указать на Java 8 вместо этого, и программа работала.Я получил идею из этой темы: Apache Beam: исключение невидимого типа параметра

0 голосов
/ 22 октября 2018

Вы должны аннотировать свой анонимный метод класса processElement с помощью аннотации @ProcessElement.

Для получения дополнительной информации о аннотации см. https://beam.apache.org/releases/javadoc/2.5.0/org/apache/beam/sdk/transforms/DoFn.ProcessElement.html

...