Я ищу подходящий способ поиска случаев, когда определенные местоимения использовались в экземплярах контрольных точек в некоторых документах, на которые я смотрю.У меня проблемы с памятью, и это заставляет меня думать, что я делаю это не очень экономно, но я также не уверен, правильно ли я поступаю.Идея состоит в том, чтобы на данный момент идентифицировать все его экземпляры, а они - в экземплярах контрольных точек, но я, возможно, захочу расширить это.Затем я хочу заменить все эти примеры на ключевое слово coreference.
В данный момент мой код выглядит следующим образом:
import spacy
import neuralcoref
import en_coref_md
import os
nlp_en = en_coref_md.load()
path = './input_zenodo/'
filelist = os.listdir(path)
for file in filelist:
try:
file = open(path+file).read()
doc = nlp_en(file)
is_pronoun = 'it'
except MemoryError:
print('MemoryError:'+file+'\n')
for token in doc:
if token.text == is_pronoun:
print(token._.in_coref)
print(token._.coref_clusters)
Если кто-то может дать совет относительно потенциальноЯ был бы очень признателен за более экономичные способы сделать это, или совет относительно того, как заменить только эти ключевые кластеры в документе.