Как обработать org.apache.spark.sql.Dataset с помощью Apache Beam? - PullRequest
0 голосов
/ 12 февраля 2019

Я хочу обработать данные из объекта org.apache.spark.sql.Dataset, которые я получаю из spark.sql («запрос») с помощью луча Apache.Но я не могу напрямую применить PTransform к этому набору данных.Прямо сейчас я использую решение, в котором я выгружаю набор данных в текстовый файл, а затем обрабатываю его с помощью луча.Есть ли способ использовать Dataset / JavaRDD напрямую в луч (Ptransform)?

Я использую Apache Beam 2.9.0.

1 Ответ

0 голосов
/ 15 февраля 2019

Насколько мне известно, вы не можете использовать Dataset в Beam сейчас.Набор данных - это API Spark, который связан с внутренними реализациями Spark.Таким образом, вы не можете запустить задание Spark, выполнить до шага, а затем позволить Beam принять его.

Ваш подход - правильный подход для соединения двух разных конвейеров системы.Даже для конвейеров системы одного типа обмен данными обычно является единственным способом соединения разных конвейеров.

Существует одна возможность заставить Spark on Beam работать, которая автоматически генерирует код Beam из кода Spark.Он не существует в мире открытого исходного кода, но вы можете прочитать некоторую информацию из практики LinkedIn: https://engineering.linkedin.com/blog/2019/01/bridging-offline-and-nearline-computations-with-apache-calcite

...