В последнее время возникают некоторые проблемы с сортировкой в случайном порядке, которые беспокоили меня:
1. Сколько файлов процесс записи в случайном порядке производит? 2 * ядер или 2 * задач?
2. shuffle на основе сортировки создаст два типа файлов: файл данных и индексный файл, так как же выглядит файл данных? Можете ли вы показать мне пример?
3. Сколько ID раздела генерируется в файле данных? На основании чего генерировать partitionID? Будет ли каждая задача генерировать одинаковый диапазон ID-раздела?