Новое в Pyspark
Я загружаю файл JSON из HDFS. Он читает данные из журналов по одному. скажем, выбрав дату, config1d из каждого журнала и загрузив ее в файл JSON.
Есть ли способ загрузить только 5 или 10 процентов данных, используя случайную выборку без загрузки всего JSON файл в памяти. Поскольку загрузка всего файла JSON занимает у меня больше часа.
Пожалуйста, дайте мне знать, если у вас есть еще вопросы