Я видел много вопросов и ответов о чтении больших файлов XML, но ни один из них, по-видимому, не обеспечил истинную производительность многоядерных процессоров python XML. Я только начал использовать превосходную среду для управления многопроцессорностью в python, которая называется ray, и мне было любопытно, смогу ли я реализовать ее для анализа больших файлов XML. В настоящее время я использую ElementTree.iterparse
, который был интуитивно понятен для реализации, но для чтения большого файла в его сериализованном формате может потребоваться более часа. Я не совсем уверен, с чего начать, чтобы максимизировать пропускную способность диска, и какое программное обеспечение уже существует, чтобы помочь этому.
Обратите внимание, что в моем случае нет никаких зависимостей в данных. Каждый элемент root элемента XML файла является независимой сущностью.