Я использую Spark-Kafka Integration для работы над моим проектом, чтобы найти самые популярные хэштеги в твиттере. Для этого я использую Kafka для проталкивания твитов через tweepy Streaming, а на стороне потребителя я использую Spark Streaming для преобразований DStream и RDD ...
Мой вопрос заключается в том, работает ли потоковый процесс через Kafka для некоторых время может привести к проблемам с хранилищем, так как я работаю как с производителем, так и с потребителем на моей локальной машине ... Как долго я могу безопасно запускать производителя (так как мне нужно, чтобы он некоторое время работал, чтобы получить правильные значения трендов ..)?
Также будет лучше, если я запустлю его на облачных платформах, таких как AWS?