Веб-данные, такие как поиски в Google, сообщения в Facebook, твиты, заказы Amazon и т. Д., Могут быть отправлены в Kafka, а данные из Kafka могут использоваться приложением для потоковой передачи в режиме реального времени.
Здесь Kafka -распределенная система обмена сообщениями «публикация-подписка», которая получает данные из разрозненных исходных систем и делает их доступными для целевых систем в режиме реального времени.
Web Application —> Kafka topic (partition-1)
Web Application —> Kafka topic (partition-2)
Web Application —> Kafka topic (partition-3)
—
—
Web Application —> Kafka topic (partition-n)
Then,
Kafka topic —> Spark Streaming App —> (hive table, hdfs file, hbase, etc)
Надеюсь, что это полезно.