Я хотел бы использовать результаты nlp.pipe, как если бы они были объектом документа, а не генераторами, но я не знаю, возможно ли это. Текст, который я использую, слишком велик для выполнения зависимостей с помощью nlp (text).
Я использую matcher, и у меня уже есть рабочий код, использующий генераторы из nlp.pipe.
for doc in nlp.pipe(ff):
matches = matcher(doc)
print(matches)
for match_id, start, end in matches:
string_id = nlp.vocab.strings[match_id]
span = doc[start:end]
identifier = string_id + ': ' + '\n'
sentence = doc[start].sent.text
out.write(identifier)
out.write(sentence)
out.write('\n')
Я бы хотел иметь возможность предварительно обработать текст, используя pipe для составления списка совпадений. Затем я хотел бы проверить эти совпадения по всему тексту как новый документ (просто запустив токенизатор, чтобы я мог сохранить все это в памяти). Это позволит сэкономить время обработки, чтобы мне не приходилось запускать nlp.pipe () каждый раз, когда я хочу запустить новый тип совпадения. Думаю ли я об этом правильно?