Насколько я понимаю, Spark использует параллельный ввод-вывод для чтения файлов. Этот вывод приходит из других ответов переполнения стека.
Мой вопрос заключается в том, позволяет ли спарк читать данные, используя независимый подход или коллективный подход? Другими словами, каждый работник читает набор данных или рабочие общаются друг с другом и сотрудничают для эффективного чтения данных?