Как написать эффективный генератор пакетов pyspark для обучающих моделей? - PullRequest
0 голосов
/ 18 марта 2020

У меня есть набор данных с более чем 6B записями в кластере Cloudera Had oop. Я использую Python (pyspark) для чтения в файлах паркета, но из-за размера я не могу преобразовать в Pandas фрейм данных. Я написал функцию генератора, которая начинается с получения размера выборки, используя df.sample(True, 0.0000015), чтобы получить около 6K строк. Такого рода работает, но образец не гарантирует, что я увижу все строки. Есть ли эффективный способ получить усваиваемое количество строк для пакета, чтобы я мог получить все строки в какой-то момент?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...