Лучше всего объединить ваши токены с пробелами, а затем использовать опцию -tokenize.whitespace
.
Так, например, если у меня был необработанный текст: This is a sentence.
, и я разбил его на ("This", "is", "a", "sentence", ".")
Я бы слил это обратно в строку "This is a sentence ."
и использовал бы опцию tokenize.whitespace
, которая будет просто разбиваться на пробелы.