Question

У меня есть набор данных с более чем 6B записями в кластере Cloudera Had oop. Я использую Python (pyspark) для чтения в файлах паркета, но из-за размера я не могу преобразовать в Pandas фрейм данных. Я написал функцию генератора, которая начинается с получения размера выборки, используя df.sample(True, 0.0000015), чтобы получить около 6K строк. Такого рода работает, но образец не гарантирует, что я увижу все строки. Есть ли эффективный способ получить усваиваемое количество строк для пакета, чтобы я мог получить все строки в какой-то момент?

Как написать эффективный генератор пакетов pyspark для обучающих моделей?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как написать эффективный генератор пакетов pyspark для обучающих моделей?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов