Чтение кодировки XML 16 - PullRequest
       8

Чтение кодировки XML 16

0 голосов
/ 11 декабря 2018

Я пытался прочитать несколько документов в формате xml в excel, но по умолчанию файлы находятся в utf-16, поэтому вручную мне приходится открывать каждый файл и изменять его с 16 на 8. Есть какие-тоспособ, которым я могу сделать это автоматически?

Я пытался автоматизировать в Python, но я не могу экспортировать его в формат Excel, потому что он сказал ни один тип формата.

Спасибо !!

Вот код:

import xml.etree.ElementTree as ET
import pandas as pd

def convertir (ruta):
  with open(ruta) as f:
   newText=f.read().replace('utf-16', 'utf-8')
   print(newText)

xml_data = convertir(r"C:\file.xml")  

class XML2DataFrame:
def __init__(self, xml_data):
    self.root = ET.XML(xml_data)

def parse_root(self, root):
    """Return a list of dictionaries from the text
     and attributes of the children under this XML root."""
    return [self.parse_element(child) for child in iter(root)]

def parse_element(self, element, parsed=None):
    """ Collect {key:attribute} and {tag:text} from thie XML
     element and all its children into a single dictionary of strings."""
    if parsed is None:
        parsed = dict()

    for key in element.keys():
        if key not in parsed:
            parsed[key] = element.attrib.get(key)
        else:
            raise ValueError('duplicate attribute {0} at element {1}'.format(key, element.getroottree().getpath(element)))         

    for child in list(element):
        self.parse_element(child, parsed)

    return parsed

def process_data(self):
    """ Initiate the root XML, parse it, and return a dataframe"""
    structure_data = self.parse_root(self.root)
    return pd.DataFrame(structure_data)




xml2df = XML2DataFrame(xml_data)
xml_dataframe = xml2df.process_data()

print(xml2df.process_data().head())
...