Как запустить файл .jar, в котором я написал свой конвейер Beam в потоке данных Google? - PullRequest
0 голосов
/ 05 ноября 2019

Я написал файл .jar с конвейером Apache Beam (написанный на Java), в котором я хочу запустить Google Dataflow. Я загрузил его в ведро. Когда я захожу в интерфейс потока данных, есть только один вариант: создать задание из шаблона. Но я не могу использовать свой файл .jar там. Как мне получить мой конвейер «в» потоке данных?

1 Ответ

0 голосов
/ 06 ноября 2019

Пожалуйста, выполните следующие шаги

mvn archetype:generate \
      -DarchetypeGroupId=org.apache.beam \
      -DarchetypeArtifactId=beam-sdks-java-maven-archetypes-examples \
      -DarchetypeVersion=2.16.0 \
      -DgroupId=org.example \
      -DartifactId=word-count-beam \
      -Dversion="0.1" \
      -Dpackage=org.apache.beam.examples \
      -DinteractiveMode=false

После выполнения команды вы должны увидеть новый каталог под названием word-count-beam под вашим текущим каталогом. word-count-beam содержит простой pom.xml

Чтобы запустить задание с помощью DataflowRunner, вам необходимо выполнить следующую команду

mvn -Pdataflow-runner compile exec:java \
      -Dexec.mainClass=org.apache.beam.examples.WordCount \
      -Dexec.args="--project=<PROJECT_ID> \
      --stagingLocation=gs://<STORAGE_BUCKET>/staging/ \
      --output=gs://<STORAGE_BUCKET>/output \
      --runner=DataflowRunner"

Пожалуйста, обратитесь к этой ссылке, чтобы узнать, как запуститьОблачный поток данных на основе Java - https://cloud.google.com/dataflow/docs/quickstarts/quickstart-java-maven

...