У меня есть ведомость продаж в виде текстового файла. Текстовый файл
Я должен извлечь значения, разделенные запятыми, из текстового файла. Я извлек его, удалив все ненужные тексты из файла, используя следующий код.
bad_sents = ['Sales Account','SALES ACCOUNT']
bad_briefs = ['Notes to the accountant','The Audit Officer is','Notes to the Audit Officer']
for filename in tqdm(os.listdir('.')):
if filename.endswith(".txt"):
with open(filename,'r') as oldfile,open(os.path.join(dest_path, filename),'w') as newfile:
for line in oldfile:
if not any(bad_sent in line for bad_sent in bad_sents):#if the string matches with keywords found at the starting , do not write that line otherwise keep writing.
if any(bad_brief in line for bad_brief in bad_briefs):#if the keyword found is that of last unwanted text ,stop writing the line and break out of loop
break
newfile.write(line)
У меня вопрос, могу ли я реализовать то же самое, используя spacy? Я думаю, что это можно сделать с помощью токена, но я не могу найти удаление предложения в просторах ... Пожалуйста, помогите