Самый эффективный способ загрузки и анализа XML - PullRequest
0 голосов
/ 17 февраля 2012

Я хочу регулярно скачивать XML-файлы из удаленных мест, анализировать и сохранять результаты в базе данных.Он будет работать на моем выделенном сервере Linux, однако я не уверен, что самый эффективный способ сделать это, так как я не уверен в издержках различных языков.

Я смотрел на некоторыеопций, и я мог либо загрузить и проанализировать их полностью в PHP, Perl, Python или C, либо использовать комбинацию (одну для загрузки с небольшими накладными расходами, одну для анализа, одну для хранения в базе данных).Какой будет лучший вариант / комбинация?

Заранее благодарен за любую помощь.

Ответы [ 2 ]

1 голос
/ 17 февраля 2012

В качестве (очень) общего эмпирического правила C будет иметь наименьшие накладные расходы и будет самым быстрым.(Поскольку он скомпилирован, а не интерпретирован.)

При этом, как правило, это различие не заметно.Если вы не имеете дело с серьезно массивными XML-документами, вы говорите миллисекунды.Дизайн выбранной вами XML-библиотеки, а не языка, будет иметь гораздо большее влияние.

Я думаю, что это случай преждевременной оптимизации.Вы знаете заранее, что ваши XML-файлы огромны?Выберите язык, который вам нравится.Если у вас возникнут проблемы, , затем вы можете экспортировать узкое место на другой язык.

Я предполагаю, что узким местом будет ваше сетевое соединение, а не анализ / анализ / сохранение.

0 голосов
/ 17 февраля 2012

Python довольно прост в использовании: пакет xml.dom.minidom делает многие вещи действительно простыми.

...