Извлечение строк из текстового файла на основе диапазона индекса символов и заданного слова (в диапазоне символов) - PullRequest
0 голосов
/ 12 апреля 2020

У меня есть аннотированный текстовый файл от инструмента Brat. У меня есть еще один файл .ann, из которого я получил информацию в виде таблицы в pandas dataframe. В этом кадре данных у меня есть диапазон индексов символов (начальный и конечный индексы), Word (программное обеспечение), который аннотируется, класс этого слова (который аннотируется) из текстового файла.

Я хочу извлечь строки ( с полным предложением) текстового файла, где слова аннотируются с учетом вышеуказанной информации. Как я могу это сделать?

for line in ann_fileread:
_, clas, start_index, end_index, Software_name= line.split()
class_name.append(clas)
b_index.append(start_index)
e_index.append(end_index)
S_name.append(Software_name)

df=pd.DataFrame((list(zip(class_name,b_index,e_index,S_name))), columns = 
 ['Classification','Start_Index', 'End_Index','Software_Name'] )
 ann_fileread.close()
...