У меня есть набор данных с более чем 6B записями в кластере Cloudera Had oop. Я использую Python (pyspark) для чтения в файлах паркета, но из-за размера я не могу преобразовать в Pandas фрейм данных. Я написал функцию генератора, которая начинается с получения размера выборки, используя df.sample(True, 0.0000015)
, чтобы получить около 6K строк. Такого рода работает, но образец не гарантирует, что я увижу все строки. Есть ли эффективный способ получить усваиваемое количество строк для пакета, чтобы я мог получить все строки в какой-то момент?