Учитывая очень большой текстовый файл из ~ 5000 HTML документов. Я пытаюсь «найти» текстовый файл с указанным c DOCNO
и распечатать все строки файла, пока не встретится следующий тег </DOC>
.
Текстовый файл выглядит примерно так:
<DOC>
<DOCNO>abc4567890</DOCNO>
contents
more contents
<BODY>
even more contents
</BODY>
</DOC>
... repeated roughly 5000 times for different DOC NO's
И я ищу вывод:
contents
more contents
<BODY>
even more contents
</BODY>
</DOC>
Вот что я пытался реализовать:
doc_string = "abc4567890"
with open('myfile.txt', encoding = "utf8") as f:
for item in f.readlines():
if "</DOCNO>" in item:
ID = (item [ item.find("<DOCNO>")+len("<DOCNO>") : ])
if (ID[0:9] == doc_string):
print (item)
if "</DOC>" in item:
break
Но в качестве вывода я получаю:
<DOCNO>abc4567890</DOCNO>