Чтение большого XML файла с использованием Python и Ray - PullRequest
0 голосов
/ 29 апреля 2020

Я видел много вопросов и ответов о чтении больших файлов XML, но ни один из них, по-видимому, не обеспечил истинную производительность многоядерных процессоров python XML. Я только начал использовать превосходную среду для управления многопроцессорностью в python, которая называется ray, и мне было любопытно, смогу ли я реализовать ее для анализа больших файлов XML. В настоящее время я использую ElementTree.iterparse, который был интуитивно понятен для реализации, но для чтения большого файла в его сериализованном формате может потребоваться более часа. Я не совсем уверен, с чего начать, чтобы максимизировать пропускную способность диска, и какое программное обеспечение уже существует, чтобы помочь этому.

Обратите внимание, что в моем случае нет никаких зависимостей в данных. Каждый элемент root элемента XML файла является независимой сущностью.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...