Question

У меня есть таблица MSSQL в качестве источника данных, и я хотел бы сохранить какое-то смещение обработки в виде метки времени (это один из столбцов таблицы).Так что было бы возможно обработать данные из последнего смещения.Я хотел бы сохранить как некое общее состояние между сеансами Spark.Я исследовал общее состояние в сеансе Spark , однако я не нашел способа сохранить это смещение в общем состоянии.Так возможно ли использовать существующие конструкции Spark для выполнения этой задачи?

Alexandros Biratsis · Answer 1 · 29 марта 2019

Насколько я знаю, в Spark нет официальной встроенной функции, поддерживающей передачу данных между сеансами.В качестве альтернативы я хотел бы рассмотреть следующие варианты / предложения:

Сначала столбец смещения должен быть индексированным полем в MSSQL, чтобы можно было быстро запросить его.
Если в вашем проекте уже установлена и используется система в памяти (т.е. Redis, Apache Ignite), я бы сохранил смещение.
Я бы не использовал систему очереди сообщенийтакие как Kafka, потому что, как только вы используете одно сообщение, вам нужно будет повторно отправить его, поэтому это не имеет смысла.
В качестве решения я предпочел бы сохранить его в файловой системе или в Hive, даже если это добавит дополнительные издержки.так как у вас будет только одно значение в этой таблице.В случае файловой системы, конечно, производительность будет намного лучше.

Дайте мне знать, нужна ли дополнительная информация

Сохранение данных базы данных JDBC в виде общего состояния Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сохранение данных базы данных JDBC в виде общего состояния Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов