Spark Array <String>длины 3 до Array <String>длины один - PullRequest
0 голосов
/ 12 апреля 2019

Мне нужно токенизировать имена авторов в формате «Last, F» как один токен. Токенайзер Spark дает мне длину массива три ['last,, f'].

Я попытался переформулировать входные данные с кавычками по всему полю. Я исследовал преобразование в массив длины один и ничего не нашел.

tokenizer.setInputCol("authorName").setOutputCol("authorNameTokens")
val dfTokens = tokenizer.transform(df.na.fill(Map("authorName" -> "")))

Ожидаемый результат: ['last, f'] -> Array [String] длиной 1

Фактический результат: ['last,, f'] -> Array [String] длиной 3

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...