Spark Streaming не читает данные из Kinesis - PullRequest
0 голосов
/ 26 апреля 2019

Я подготовил код pyspark для чтения данных из AWS Kinesis во время потоковой передачи искры.Код работает нормально без каких-либо ошибок, но не получает никаких записей.

Я создал один поток данных Kinesis только с одним осколком и использовал утилиты Kinesis для создания искрового потока Kinesis.

spark_session = SparkSession.builder.getOrCreate()
ssc = StreamingContext(spark_session.sparkContext, 10)
sc = spark_session.sparkContext
Kinesis_app_name = "test"
Kinesis_stream_name = "aip4_idc_sensor_data"
endpoint_url = "kinesis.us-east-1.amazonaws.com"
region_name = "us-east-1"

data = KinesisUtils.createStream(
    ssc, Kinesis_app_name, Kinesis_stream_name, endpoint_url,
    region_name, InitialPositionInStream.LATEST, 10, StorageLevel.MEMORY_AND_DISK_2)


data.pprint()


ssc.start()  # Start the computation
ssc.awaitTermination()  # Wait for the computation to terminate

Командадля записи ставок aws:

запись ставок awines kinesis - имя потока aip4_icd_sensor --data "test" - ключ раздела "sixty"

1 Ответ

0 голосов
/ 21 мая 2019

Для меня проблема в том, что моя точка кинезиса застряла далеко позади последней. Несмотря на то, что он связан с кинезисом, он все еще пытается прочитать старые пустые записи. Лучший способ сделать это - перейти на DynamoDB, вы увидите таблицу с тем же именем, что и у вашего kinesisAppName. Удалите его и попробуйте запустить снова. Меня устраивает. Сразу же я получил последние записи из потока

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...