Spacy: Как создать документ из предложения токенизированного текста? - PullRequest
0 голосов
/ 14 января 2019

У меня есть текст, который уже разбит на предложения, и мне интересно, как сделать из него просторный документ?

1 Ответ

0 голосов
/ 16 января 2019

После небольшого исследования я нашел следующее простое решение:

nlp = spacy.load('en')
sents = [['sentence', 'one'], ['sentence', 'two']]
doc = nlp.tokenizer.tokens_from_list([t for s in sents for t in s])
for t in doc:
    t.is_sent_start = False
i = 0
for s in sents:
    doc[i].is_sent_start = True
    i += len(s)
...