У меня есть несколько файлов sgml, которые примерно стандартизированы.Тем не менее, могут быть данные, содержащиеся в теге, который я не знаю, существует, прежде чем я открою файл и лично прочитал его.Например, файлы имеют адреса, и обычно адреса имеют улицу, город, штат, почтовый индекс и телефон.Каждый элемент адреса обозначен тегом
<ADDRESS>
<STREET>One Main Street
<CITY>Gotham City
<ZIP>99999 0123
<PHONE>555-123-5467
</ADDRESS>
Но, например, я обнаружил, что есть теги для страны, STREET1, STREET2.У меня есть более 200K файлов для обработки, и я хочу знать, возможно ли извлечь все элементы адресов, не беспокоясь о том, чтобы знать о существовании неизвестных тегов.
h=fromstring(my_data_in_a_string)
for each in h.cssselect('mail_address'):
each.text_content()
но то, что я получаю, проблематично, потому что я не могу определить, где заканчивается один элемент и начинается следующий
One Main StreetGotham City99999 0123555-123-5467