Мне нужно запустить весеннее пакетное задание.Я должен прочитать около 2 миллионов документов из Монго.В документах зафиксировано 15 полей.Они содержат строки, даты и _id.
Мой вопрос: как лучше всего это обработать?Просто сделать в 1 шаг или распространить через много шагов?Какова лучшая практика?Не плохо ли загружать 2 миллиона записей в память?Я знаю, при загрузке записей через Apache Spark, он передает данные, что хорошо.Но я не использую Apache Spark.