Question

Я хочу обработать данные из объекта org.apache.spark.sql.Dataset, которые я получаю из spark.sql («запрос») с помощью луча Apache.Но я не могу напрямую применить PTransform к этому набору данных.Прямо сейчас я использую решение, в котором я выгружаю набор данных в текстовый файл, а затем обрабатываю его с помощью луча.Есть ли способ использовать Dataset / JavaRDD напрямую в луч (Ptransform)?

Я использую Apache Beam 2.9.0.

Rui Wang · Answer 1 · 15 февраля 2019

Насколько мне известно, вы не можете использовать Dataset в Beam сейчас.Набор данных - это API Spark, который связан с внутренними реализациями Spark.Таким образом, вы не можете запустить задание Spark, выполнить до шага, а затем позволить Beam принять его.

Ваш подход - правильный подход для соединения двух разных конвейеров системы.Даже для конвейеров системы одного типа обмен данными обычно является единственным способом соединения разных конвейеров.

Существует одна возможность заставить Spark on Beam работать, которая автоматически генерирует код Beam из кода Spark.Он не существует в мире открытого исходного кода, но вы можете прочитать некоторую информацию из практики LinkedIn: https://engineering.linkedin.com/blog/2019/01/bridging-offline-and-nearline-computations-with-apache-calcite

Как обработать org.apache.spark.sql.Dataset с помощью Apache Beam?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обработать org.apache.spark.sql.Dataset с помощью Apache Beam?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы