У меня очень большие данные в MongoDB, которые растут день ото дня, поэтому я не могу обрабатывать все данные каждый день, а хочу обработать только инкрементные данные того дня и добавить результаты к ранее обработанным данным и сохранить их. это в MongoDB. Версия Pyspark: 2.4.4 Версия MongoDB: 4.2.0 Примечание: иногда некоторые коллекции в MongoDB могут иметь некоторые соединения с ранее обработанными данными
, как реализовать эту ситуацию в pyspark вдоль структурированной потоковой искры. Я читаю и пишу окончательные результаты в MongoDB. Или я могу реализовать это вместе с Pentaho и потоковой передачей искры?
Я хочу прочитать инкрементальные данные того дня только из MongoDB, обработать их с помощью pyspark, добавить результаты к ранее обработанным данным и сохранить их в MongoDB. если кто-нибудь может дать мне представление о том, как сделать это на примере, я был бы очень благодарен. спасибо.