У меня есть фрейм данных PySpark, и для каждой (партии) записи я хочу вызвать API.В общем, скажем, у меня есть 100000k записей, я хочу объединить элементы в группы, скажем, 1000 и вызвать API.Как я могу сделать это с PySpark?Причина пакетирования заключается в том, что API, вероятно, не примет огромный кусок данных из системы больших данных.
Сначала я подумал о LIMIT
, но это не будет "детерминистическим".Кроме того, кажется, что это будет неэффективно?