Каковы недостатки интеграции Spark Kafka на локальном компьютере для анализа потокового твиттера в реальном времени? - PullRequest
0 голосов
/ 05 января 2020

Я использую Spark-Kafka Integration для работы над моим проектом, чтобы найти самые популярные хэштеги в твиттере. Для этого я использую Kafka для проталкивания твитов через tweepy Streaming, а на стороне потребителя я использую Spark Streaming для преобразований DStream и RDD ...

Мой вопрос заключается в том, работает ли потоковый процесс через Kafka для некоторых время может привести к проблемам с хранилищем, так как я работаю как с производителем, так и с потребителем на моей локальной машине ... Как долго я могу безопасно запускать производителя (так как мне нужно, чтобы он некоторое время работал, чтобы получить правильные значения трендов ..)?

Также будет лучше, если я запустлю его на облачных платформах, таких как AWS?

Ответы [ 2 ]

1 голос
/ 06 января 2020

Не ясно, какое временное окно вы используете или где работает Kafka. Вычисление трендов за 10 минут или час или около того не должно занимать много места на кластере Spark.

Хранилище Kafka, конечно, должно быть достаточно большим для вашего случая использования

Твиты не очень велики. Фильтрация хештегов только уменьшает их.

Примечание: Spark кажется излишним для этого, поскольку вы можете сделать то же самое с Kafka Connect для ingest и ksqlDB для вычислений

1 голос
/ 05 января 2020

Я согласен. хранилище было дилеммой при работе потокового сервера, aws имеет Amazon MSK, который является управляемым потоковым сервером Kafka, сильная сторона в том, что вы можете интегрировать s3 для резервного копирования, которая имеет гораздо более низкую стоимость, чем локальное хранилище, в дополнение к долговечности Кроме того, хранилище EBS может быть предоставлено на лету

https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-kafka-on-aws/

...