Временным решением для этого может быть использование функции .limit()
. Вы можете сделать что-то вроде: допустим, ваш основной df с 70 тыс. Строк - original_df. Таким образом, вы можете сделать как
limited_df = df.limit(50000)
в первый раз, чтобы получить 50 тыс. Строк, а для следующих строк вы можете сделать
original_df.subtract(limited_df)
, и вы получите оставшиеся строки. Вы даже можете сделать .limit () для вычтенного df, если это необходимо.
ОБНОВЛЕНО: Вы можете сделать это для любого количества строк, присутствующих во фрейме данных. Скажем, в какой-то момент, если ваш фрейм данных имеет 30000 строк, и если вы сделали df.limit (50000), он не вызовет никаких ошибок и просто вернет 30 тысяч строк, присутствующих во фрейме данных.