У меня есть XML фид покупок с кучей продуктов, см. Ниже. Если бы я проанализировал это с красивым супом, чтобы создать pandas фрейм данных, я бы использовал что-то вроде этого:
def parse_shopping_feed(feed_xml):
#response = requests.get(feed_url)
soup = BeautifulSoup(feed_xml, "xml")
all_products = []
for item in soup.find_all("item"):
new_product = {
"id": item.id.string,
"title": item.title.string,
"description": item.description.string,
"google_product_category": item.google_product_category.string,
"product_type": item.product_type.string if "product_type" in item else "",
"link": item.link.string,
"availability": item.availability.string,
"price": item.price.string,
"brand": item.brand.string
}
all_products.append(new_product)
feed_df = pd.DataFrame(all_products)
return feed_df
Теперь, Beautiful Soup слишком медленный для одного из этих каналов (около 300 МБ) ) поэтому начали смотреть на ElementTree, который должен быть быстрее. Однако я не могу понять, что воссоздаю этот код с помощью ET.
Как мне, например, oop просмотреть все теги элементов и получить их идентификатор и заголовок?
Моя текущая лучшая догадка примерно такая, но я не понимаю, как подберите каждое удостоверение личности и название.
xml_file = open('shopping_feed.xml')
for event, element in ET.iterparse(xml_file, events=None):
for child in element:
print(child)
element.clear()
Есть предложения? Чтобы быть ясным, моей конечной целью является датафрейм, так что если есть способ просто преобразовать его напрямую, это было бы здорово!
<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0" xmlns:g="http://base.google.com/ns/1.0">
<channel>
<title>Feed XYZ</title>
<description></description>
<link></link>
<item>
<g:id>10000005</g:id>
<title><![CDATA[TEst Item XYZ ]]></title>
<g:google_product_category>Food and stuff</g:google_product_category>
<g:product_type><![CDATA[Details > Food and stuff]]></g:product_type>
<g:adwords_grouping><![CDATA[Food and stuff]]></g:adwords_grouping>
<link>https://www.abc.se/abc/abc</link>
<g:image_link>https://www.abc.se/bilder/artiklar/10000005.jpg</g:image_link>
<g:additional_image_link>https://www.abc.se/bilder/artiklar/zoom/10000005_1.jpg</g:additional_image_link>
<g:condition>new</g:condition>
<g:availability>out of stock</g:availability>
<g:price>155 SEK</g:price>
<g:buyprice>68.00</g:buyprice>
<g:brand>ABC</g:brand>
<g:gtin>8003299920846</g:gtin>
<g:mpn>ABC01 AZ</g:mpn>
<g:weight>0 g</g:weight>
<g:item_group_id>10000008r</g:item_group_id>
<g:color>Blue</g:color>
//100s of thousand of products