как сделать инкрементную обработку данных в pyspark вместе со структурированной потоковой передачей искры или с pentaho и mongodb - PullRequest
0 голосов
/ 01 ноября 2019

У меня очень большие данные в MongoDB, которые растут день ото дня, поэтому я не могу обрабатывать все данные каждый день, а хочу обработать только инкрементные данные того дня и добавить результаты к ранее обработанным данным и сохранить их. это в MongoDB. Версия Pyspark: 2.4.4 Версия MongoDB: 4.2.0 Примечание: иногда некоторые коллекции в MongoDB могут иметь некоторые соединения с ранее обработанными данными

, как реализовать эту ситуацию в pyspark вдоль структурированной потоковой искры. Я читаю и пишу окончательные результаты в MongoDB. Или я могу реализовать это вместе с Pentaho и потоковой передачей искры?

Я хочу прочитать инкрементальные данные того дня только из MongoDB, обработать их с помощью pyspark, добавить результаты к ранее обработанным данным и сохранить их в MongoDB. если кто-нибудь может дать мне представление о том, как сделать это на примере, я был бы очень благодарен. спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...