Мне нужно токенизировать имена авторов в формате «Last, F» как один токен. Токенайзер Spark дает мне длину массива три ['last,, f'].
Я попытался переформулировать входные данные с кавычками по всему полю. Я исследовал преобразование в массив длины один и ничего не нашел.
tokenizer.setInputCol("authorName").setOutputCol("authorNameTokens")
val dfTokens = tokenizer.transform(df.na.fill(Map("authorName" -> "")))
Ожидаемый результат:
['last, f'] -> Array [String] длиной 1
Фактический результат:
['last,, f'] -> Array [String] длиной 3