Отбор проб в Писпарке - PullRequest
       23

Отбор проб в Писпарке

0 голосов
/ 10 января 2020

Новое в Pyspark

Я загружаю файл JSON из HDFS. Он читает данные из журналов по одному. скажем, выбрав дату, config1d из каждого журнала и загрузив ее в файл JSON.

Есть ли способ загрузить только 5 или 10 процентов данных, используя случайную выборку без загрузки всего JSON файл в памяти. Поскольку загрузка всего файла JSON занимает у меня больше часа.

Пожалуйста, дайте мне знать, если у вас есть еще вопросы

Ответы [ 2 ]

0 голосов
/ 11 января 2020

В Spark это невозможно сделать без предварительной загрузки всех данных в вашей памяти. Во-первых, вы должны загрузить его и сделать пример (преобразование), как сказал @firtree.

0 голосов
/ 11 января 2020

Для фрейма данных df вы можете использовать df.sample (фракция = 0,05, семя = 3) для выборки 5 процентов. Дробь - это число от 0 до 1, начальное число необязательно, но в противном случае случайное.

...