Анализ большого XML с помощью iterparse () занимает слишком много памяти. Любая альтернатива? - PullRequest
2 голосов
/ 02 ноября 2011

Я использую Python 2.7 с последней библиотекой lxml. Я анализирую большой XML-файл с очень однородной структурой и миллионами элементов. Я думал, что lxml iterparse не будет создавать внутреннее дерево во время синтаксического анализа, но, очевидно, это происходит, поскольку использование памяти растет, пока не происходит сбой (около 1 ГБ). Есть ли способ проанализировать большой XML-файл с помощью lxml без использования большого количества памяти?

Я видел целевой интерфейс синтаксического анализатора как одну возможность, но я не уверен, будет ли это работать лучше.

Ответы [ 2 ]

2 голосов
/ 02 ноября 2011

Попробуйте использовать fast_iter Лизы Дали *:

def fast_iter(context, func, args=[], kwargs={}):
    # http://www.ibm.com/developerworks/xml/library/x-hiperfparse/
    # Author: Liza Daly
    for event, elem in context:
        func(elem, *args, **kwargs)
        elem.clear()
        while elem.getprevious() is not None:
            del elem.getparent()[0]
    del context

fast_iter удаляет элементы из дерева после того, как они были проанализированы, а также предыдущие элементы (возможно, с другими тегами), которыебольше не нужен.

Можно использовать так:

import lxml.etree as ET
def process_element(elem):
    ...
context=ET.iterparse(filename, events=('end',), tag=...)        
fast_iter(context, process_element)
0 голосов
/ 26 июля 2018

У меня была эта проблема и я решил ее с подсказкой от http://effbot.org/zone/element-iterparse.htm#incremental-parsing:

elems = ET.Element('MyElements')
for event, elem in ET.iterparse(filename):
    if is_needed(elem): # implement this condition however you like
        elems.append(elem)
    else:
        elem.clear()

Это дает вам дерево только с теми элементами, которые вам нужны, без необходимости в лишней памяти при разборе.

...