Я видел, что общая рекомендация для всех, кто использует Spark (в моем случае с Scala), - избегать любых действий, которые передают все данные от исполнителей к драйверу (сбор, подсчет, сумма и т. Д. c). Однако, когда я попытался использовать Spark statisti c library http://spark.apache.org/docs/2.2.0/ml-statistics.html, я обнаружил, что корреляционная матрица и методы ChiSquareTest ожидают в качестве своих параметров массив или матрицу, полученную из array \ seq, поэтому я не вижу как я мог бы избежать сбора данных в фрейме данных (и еще некоторых манипуляций, которые, как я предполагаю, сделают его типом Vectors not Row), если я хочу использовать эти функции. Буду признателен за любую помощь.