Могу ли я скомпилировать результаты nlp.pipe обратно в большой документ? - PullRequest
0 голосов
/ 30 апреля 2019

Я хотел бы использовать результаты nlp.pipe, как если бы они были объектом документа, а не генераторами, но я не знаю, возможно ли это. Текст, который я использую, слишком велик для выполнения зависимостей с помощью nlp (text).

Я использую matcher, и у меня уже есть рабочий код, использующий генераторы из nlp.pipe.

for doc in nlp.pipe(ff):
    matches = matcher(doc)
    print(matches)
    for match_id, start, end in matches:
        string_id = nlp.vocab.strings[match_id]  
        span = doc[start:end] 
        identifier = string_id + ': ' + '\n'
        sentence = doc[start].sent.text
        out.write(identifier)
        out.write(sentence)
        out.write('\n')

Я бы хотел иметь возможность предварительно обработать текст, используя pipe для составления списка совпадений. Затем я хотел бы проверить эти совпадения по всему тексту как новый документ (просто запустив токенизатор, чтобы я мог сохранить все это в памяти). Это позволит сэкономить время обработки, чтобы мне не приходилось запускать nlp.pipe () каждый раз, когда я хочу запустить новый тип совпадения. Думаю ли я об этом правильно?

...