Я хочу кэшировать некоторые данные (ndarrays) локально на рабочих узлах, чтобы провести некоторое сравнение с ndarray, распределенным из входящих RDD из потоковой передачи Spark. Каков наилучший способ сделать это?
Поскольку я хочу сравнивать ndarrays, хранящиеся в моих файлах, с каждым отдельным ndarray, переданным из потоковой передачи Spark. Не похоже, что я могу загрузить эти данные в RDD, так как я не могу пройти через другой RDD внутри функции карты другого RDD. И я попытался загрузить их в список на главном узле и передать их на рабочие узлы. Но я получил ошибку, что широковещательная переменная не повторяется, когда я пытаюсь просмотреть их и сравнить с входящими данными.