Question

Мне нужно токенизировать имена авторов в формате «Last, F» как один токен. Токенайзер Spark дает мне длину массива три ['last,, f'].

Я попытался переформулировать входные данные с кавычками по всему полю. Я исследовал преобразование в массив длины один и ничего не нашел.

tokenizer.setInputCol("authorName").setOutputCol("authorNameTokens")
val dfTokens = tokenizer.transform(df.na.fill(Map("authorName" -> "")))

Ожидаемый результат: ['last, f'] -> Array [String] длиной 1

Фактический результат: ['last,, f'] -> Array [String] длиной 3

Spark Array <String>длины 3 до Array <String>длины один

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.