Question

Я недавно в pandas, и я только начинаю изучение кода. Пожалуйста, было бы здорово, если бы вы могли мне помочь. У меня есть простой XML как этот, и я хочу преобразовать его в фрейм данных с pandas

   <products_availability date="2020-01-24 06:32" >
    <region id="122">
        <products count="45453242">
            <product id="1000001">0</product>
            <product id="1000002">5</product>
            <product id="1000003">3</product>
        </products>
   </region>
   </products_availability>`

Я использую некоторый код, но в любом случае это не помогает мне:

    import pandas as pd
    import xml.etree.ElementTree as et
    xtree = et.parse("file.xml")
    xroot = xtree.getroot()
    df_cols = ["product"]
    rows = []
    for node in xroot:
    s_product = node.attrib.get("product")
    rows.append({"name":  s_product
                 })
    out_df = pd.DataFrame(rows, columns = df_cols)

balderman · Answer 1 · 27 января 2020

Код ниже объединяет xml (регион, продукты, продукт) в одну запись.

import xml.etree.ElementTree as ET

import pandas as pd

xml = '''<products_availability date="2020-01-24 06:32" >
    <region id="122">
        <products count="45453242">
            <product id="1000001">0</product>
            <product id="1000002">5</product>
            <product id="1000003">3</product>
        </products>
    </region>
    <region id="133">
        <products count="45453277">
            <product id="1000004">7</product>
            <product id="1000005">3</product>
            <product id="1000006">1</product>
        </products>
    </region>
</products_availability>'''

data = []
root = ET.fromstring(xml)
regions = root.findall('.//region')
for region in regions:
    region_id = region.attrib['id']
    products_count = region.find('./products').attrib['count']
    for product in region.findall('.//product'):
        entry = {'region_id': region_id, 'products_count': products_count,
                 'product_id': product.attrib['id'], 'number': product.text}
        data.append(entry)
df = pd.DataFrame(data)
print(df)

вывод

  region_id products_count product_id number
0       122       45453242    1000001      0
1       122       45453242    1000002      5
2       122       45453242    1000003      3
3       133       45453277    1000004      7
4       133       45453277    1000005      3
5       133       45453277    1000006      1

FJSevilla · Answer 2 · 26 января 2020

Если вам не нужно классифицировать по регионам, вы можете использовать метод findall или iterfind, чтобы найти все подходящие подэлементы:

<products_availability date="2020-01-24 06:32" >
    <region id="122">
        <products count="45453242">
            <product id="1000001">0</product>
            <product id="1000002">5</product>
            <product id="1000003">3</product>
        </products>
    </region>
    <region id="133">
        <products count="45453242">
            <product id="1000004">7</product>
            <product id="1000005">3</product>
            <product id="1000006">1</product>
        </products>
    </region>
</products_availability>

import pandas as pd
import xml.etree.ElementTree as et


columns = ["product", "products_availability"]
xtree = et.parse("file.xml")
products = ((p.get("id"), p.text) for p in xtree.iterfind(".//product"))
out_df = pd.DataFrame(products, columns=columns)

>>> out_df


   product products_availability
0  1000001                     0
1  1000002                     5
2  1000003                     3
3  1000004                     7
4  1000005                     3
5  1000006                     1

Издание

Если необходим регион, просто:

import pandas as pd
import xml.etree.ElementTree as et


columns = ["product", "products_availability", "region"]
xtree = et.parse("file.xml")
prds = ((p.get("id"), p.text, r.get("id")) for r in xtree.iterfind(".//region")
            for p in r.iterfind(".//product")
            )

out_df = pd.DataFrame(prds, columns=columns)

>>> out_df


   product products_availability region
0  1000001                     0    122
1  1000002                     5    122
2  1000003                     3    122
3  1000004                     7    133
4  1000005                     3    133
5  1000006                     1    133

Как преобразовать xml в dataFrame с pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как преобразовать xml в dataFrame с pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов