У меня есть поток данных в тему в Google PubSub.Я вижу эти данные, используя простой код Python:
...
def callback(message):
print(datetime.now().strftime("%Y-%m-%d %H:%M:%S.%f") + ": message = '" + message.data + "'")
message.ack()
future = subscriber.subscribe(subscription_name, callback)
future.result()
Приведенный выше код Python получает данные из темы Google PubSub (с подписчиком subscriber_name ) и записывает их в терминал, как и ожидалось,Я хотел бы передать те же данные из темы в PySpark (RDD или dataframe), чтобы я мог выполнять другие потоковые преобразования, такие как оконные операции и агрегации в PySpark, как описано здесь: https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html.
Эта ссылка имеетдокументация для чтения других потоковых источников (например, Kafka), но не Google PubSub.Есть ли способ потоковой передачи из Google PubSub в PySpark?