Можно использовать выражение SQL, например, с expr
:
import org.apache.spark.sql.functions.expr
val df = Seq(
(Seq("a", "b", "c"), 0), (Seq("d", "e", "f"), 2)
).toDF("col1", "col2")
df.withColumn("col3", expr("col1[col2]")).show
+---------+----+----+
| col1|col2|col3|
+---------+----+----+
|[a, b, c]| 0| a|
|[d, e, f]| 2| f|
+---------+----+----+
или, в Spark 2.4 или более поздней версии, функцией element_at
:
import org.apache.spark.sql.functions.element_at
df.withColumn("col3", element_at($"col1", $"col2" + 1)).show
+---------+----+----+
| col1|col2|col3|
+---------+----+----+
|[a, b, c]| 0| a|
|[d, e, f]| 2| f|
+---------+----+----+
Обратите внимание, что на данный момент (Spark 2.4) существует несоответствие между этими двумя методами:
- SQL
[]
индексирование основано на 0. element_at
индексирование основано на 1.