Автоматизируйте XML синтаксический анализ и преобразование DOCX в PDF - PullRequest
0 голосов
/ 16 января 2020

Я не программировал много лет, но мне нужно автоматизировать следующий процесс.

Государственный орган медицины публикует файл xml на своем веб-сайте. Мне нужно скачать его, разобрать его и поймать одно из полей, которое имеет URL-адрес файла DOCX. Мне нужно сохранить его в нашей локальной файловой системе в формате PDF. Нужно повторять этот процесс каждые n дней.

Раньше я знал PHP достаточно хорошо, но что это будет хорошо для этой задачи. Будет python лучше. Поскольку у меня нет сервера на работе, я думал о получении Raspberry Pi.

Что бы вы посоветовали о том, как мне поступить об этом.

У меня есть несколько идей использования wget или сверните задание cron, чтобы получить файл xml. Затем используйте, возможно, php или python или bash для анализа файла xml, вызовите docx с помощью wget или curl nad, затем используйте инструмент командной строки pdf. Если это будет на веб-сайте, я должен загрузить результаты в sql дБ или просто перечислить их как файлы в каталоге.

Буду признателен за любые идеи.

Мартин

1 Ответ

0 голосов
/ 16 января 2020

Лично я бы go с node.js. Легко настроить сервер узла на Raspberry Pi, а node.js имеет библиотеку для всего, что угодно. Существует множество простых инструкций по установке, и у SO есть много информации, такой как xml парсинг в узле . JavaScript довольно легко кодировать.

Например, если вам нужен конвертер docx, вот один из них: Мамонт. js

Удачи!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...