Я хочу создать spaCy doc
, учитывая, что у меня есть необработанный текст и words
, но отсутствуют пробельные данные.
from spacy.tokens import Doc
doc = Doc(nlp.vocab, words=words, spaces=spaces)
Как это сделать правильно, чтобы информация о пробелах не была потеряна?
Пример данных, которые у меня есть:
data= {'text': 'This is just a test sample.', 'words': ['This', 'is', 'just', 'a', 'test', 'sample', '.']}