У меня есть вопрос о том, есть ли способ сохранить один пробел в качестве независимого токена в токенизации spaCy.
Например, если я запустил:
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp("This is easy.")
toks = [w.text for w in doc]
toks
Результат будет
['This', 'is', 'easy', '.']
Вместо этого я хотел бы получить что-то вроде
['This', ' ', 'is', ' ', 'easy', '.']
* 1011Есть ли простой способ сделать это?