Мне нужно проанализировать достаточно большие XML-файлы (каждый по несколько ГБ), преобразовать в json и загрузить в коллекцию Mongo. Сейчас я использую xml-json. Но это не позволяет мне игнорировать узлы, которые я не хочу загружать. Существующая команда выглядит следующим образом: zcat /downloads/Feed21-06-2019-11:22:18.xml.gz | xml-json item_data | mongoimport --host localhost --port 27017 --collection xml_dat
Можно ли начать с определенного узла (item_data), а также игнорировать специальные теги с помощью fast-xml-parser? Формат XML выглядит следующим образом -
<?xml version="1.0" encoding="UTF-8" ?>
<DataFeeds>
<item_data>
...............
</item_data>
<item_data>
...............
</item_data>
<item_data>
...............
</item_data>
</DataFeeds>
Каждый <item_data>
содержит данные, относящиеся к одному продукту. Поэтому, когда я получаю данные из внутреннего тега, т.е. игнорирую внешний <DataFeeds>
, каждый продукт становится одним документом в коллекции Mongo.