Насколько я знаю, в Spark нет официальной встроенной функции, поддерживающей передачу данных между сеансами.В качестве альтернативы я хотел бы рассмотреть следующие варианты / предложения:
- Сначала столбец смещения должен быть индексированным полем в MSSQL, чтобы можно было быстро запросить его.
- Если в вашем проекте уже установлена и используется система в памяти (т.е. Redis, Apache Ignite), я бы сохранил смещение.
- Я бы не использовал систему очереди сообщенийтакие как Kafka, потому что, как только вы используете одно сообщение, вам нужно будет повторно отправить его, поэтому это не имеет смысла.
- В качестве решения я предпочел бы сохранить его в файловой системе или в Hive, даже если это добавит дополнительные издержки.так как у вас будет только одно значение в этой таблице.В случае файловой системы, конечно, производительность будет намного лучше.
Дайте мне знать, нужна ли дополнительная информация