Похоже, у вас вопрос: созданы ли дублирующиеся задания Spark.
Если вы посмотрите на скриншот, то увидите, что задания имеют разное количество задач, поэтому дублирование не является простым.
Я не уверен, что именно происходит, но кажется, что для больших наборов данных take()
требуется несколько быстрых последующих заданий. Возможно, потому что он разрабатывает работу, или, возможно, потому что он должен попытаться определить, сколько работы нужно сделать.