Какие данные мы можем обработать через Spark ?? Структурированные / неструктурированные / полуструктурированная? - PullRequest
0 голосов
/ 02 июля 2019

Я новичок в картах уменьшения и искры, В мире больших данных есть разные типы данных. пример 40000 поисковых запросов в секунду 6000 твитов / секунду 5 000 000 новых пользователей FB каждый день, 4 PB / день 35 Amazon заказов / сек 5000 датчиков / летный двигатель, производящий 10 ГБ / сек ...

для потокового процесса у нас есть карта Reduce и Spark Framework. Так что же за данные мы можем обработать через платформу spark ??

Ответы [ 2 ]

0 голосов
/ 02 июля 2019

Веб-данные, такие как поиски в Google, сообщения в Facebook, твиты, заказы Amazon и т. Д., Могут быть отправлены в Kafka, а данные из Kafka могут использоваться приложением для потоковой передачи в режиме реального времени.

Здесь Kafka -распределенная система обмена сообщениями «публикация-подписка», которая получает данные из разрозненных исходных систем и делает их доступными для целевых систем в режиме реального времени.

Web Application —> Kafka topic (partition-1)
Web Application —> Kafka topic (partition-2)
Web Application —> Kafka topic (partition-3)
—
—
Web Application —> Kafka topic (partition-n)


Then,

Kafka topic —> Spark Streaming App —> (hive table, hdfs file, hbase, etc)

Надеюсь, что это полезно.

0 голосов
/ 02 июля 2019

для потокового процесса у нас есть карта Reduce и Spark Framework. И что данные, которые мы можем обработать с помощью Spark Framework?

Вы можете легко обрабатывать данные структуры и полуструктуры с помощью Spark. Spark также имеет возможность обрабатывать неструктурированные данные, если анализ данных возможен.

По вашему вопросу, если вы имеете в виду уменьшение карты с помощью движка Hadoop MapReduce, то его невозможно использовать для потоковой передачи данных . Да, вы можете использовать Spark для потоковой передачи данных и обработки в реальном времени.

...