Question

Новое в Pyspark

Я загружаю файл JSON из HDFS. Он читает данные из журналов по одному. скажем, выбрав дату, config1d из каждого журнала и загрузив ее в файл JSON.

Есть ли способ загрузить только 5 или 10 процентов данных, используя случайную выборку без загрузки всего JSON файл в памяти. Поскольку загрузка всего файла JSON занимает у меня больше часа.

Пожалуйста, дайте мне знать, если у вас есть еще вопросы

ggeop · Answer 1 · 11 января 2020

В Spark это невозможно сделать без предварительной загрузки всех данных в вашей памяти. Во-первых, вы должны загрузить его и сделать пример (преобразование), как сказал @firtree.

firtree · Answer 2 · 11 января 2020

Для фрейма данных df вы можете использовать df.sample (фракция = 0,05, семя = 3) для выборки 5 процентов. Дробь - это число от 0 до 1, начальное число необязательно, но в противном случае случайное.

Отбор проб в Писпарке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Отбор проб в Писпарке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы