Я новичок в Python, PyTables и HDF5.Я ищу простое и лучшее решение для моей проблемы.
Проблема следующая.С одной стороны у меня много XML-файлов с данными.Я просто хочу разобрать эти файлы и поместить данные в файл hdf5 на другой стороне.Позже я буду использовать эти данные по некоторым критериям поиска. Почему HDF5?Потому что нужно поставить большой набор данных и потому, что скорость.Использование СУБД создаст проблемы с производительностью при операциях JOIN.Решение должно обеспечивать скорость и хорошую производительность памяти.
После некоторого поиска в Google я считаю Python и PyTables возможным решением.Моя идея состоит в том, чтобы анализировать данные из XML в Java (этот код должен быть написан на Java), после этого написать скрипт Python, который вставляет данные в hdf5 с использованием API PyTables и выполняет скрипт Python из Java.Итак, я пишу и выполняю скрипт Python из Java-программы.Для написания скрипта Python на Java я использую пакет java.io. * и для выполнения класса Process на Java.Например:
p.exec ("cmd / c C: \ MyScripts \ myscript.py")
Я не знаю, хорошо ли это решение.Для меня не круто писать скрипты из Java с использованием java.io. *.Возможно, позже у меня будут проблемы с чтением результатов из сценариев (когда я создаю некоторые критерии поиска с использованием сценариев Python и API PyTables).
Итак, у меня есть несколько вопросов по моей проблеме.Каково лучшее решение между анализом данных XML с одной стороны и хранением данных в формате hdf5 с другой стороны?Я на правильном пути с этим решением (написание и выполнение скриптов Python из кода Java)?А как насчет Python и PyTables?Являются ли эти технологии хорошим решением для моей проблемы?Также я прочитал несколько вещей о Jython, но я не знаю, возможно ли объединить его с PyTables?
Мнение и советы от профессионалов приветствуются.Спасибо за помощь.