Удалить предложения в текстовом файле, используя spacy - PullRequest
0 голосов
/ 04 апреля 2020

У меня есть ведомость продаж в виде текстового файла. Текстовый файл

Я должен извлечь значения, разделенные запятыми, из текстового файла. Я извлек его, удалив все ненужные тексты из файла, используя следующий код.

bad_sents = ['Sales Account','SALES ACCOUNT']
bad_briefs = ['Notes to the accountant','The Audit Officer is','Notes to the Audit Officer']

for filename in tqdm(os.listdir('.')):
    if filename.endswith(".txt"):
        with open(filename,'r') as oldfile,open(os.path.join(dest_path, filename),'w') as newfile:
            for line in oldfile:
                if not any(bad_sent in line for bad_sent in bad_sents):#if the string matches with keywords found at the starting , do not write that line otherwise keep writing.
                    if any(bad_brief in line for bad_brief in bad_briefs):#if the keyword found is that of last unwanted text ,stop writing the line and break out of loop
                        break
                    newfile.write(line)

У меня вопрос, могу ли я реализовать то же самое, используя spacy? Я думаю, что это можно сделать с помощью токена, но я не могу найти удаление предложения в просторах ... Пожалуйста, помогите

...