Утилиты, на которые указывает StompChicken, предназначены для издателей для проверки их XML перед отправкой в PMC, они не являются инструментами для загрузки.
Обратите внимание, что подавляющее большинство статей в PMC не имеют открытого доступа (OA) и поэтому не могут быть загружены автоматически (легально) каким-либо образом. NCBI предупреждает:
- На большинство статей в PMC распространяются традиционные ограничения авторского права, и они не являются частью этого подмножества. Прочитайте Уведомление об авторских правах PMC для получения дополнительной информации.
- Сервис PMC OAI и сервис PMC FTP являются единственными сервисами, которые можно использовать для автоматической загрузки статей из этого подмножества открытого доступа.
- Систематический поиск (массовая загрузка) статей с помощью любого другого автоматизированного процесса запрещен, даже если вы извлекаете статьи только из этого подмножества.
- Некоторые журналы используют ярлык «открытый доступ» для статьи, которая доступна бесплатно на момент публикации, но все еще подлежит традиционным ограничениям авторского права. Такие статьи не являются частью этого подмножества.
Для загрузки контента PMC лучше всего использовать FTP-сервис PMC Open Access: http://www.ncbi.nlm.nih.gov/pmc/tools/ftp/
Вы также можете использовать eutils для запроса PMC и загрузки полного текста подмножества OA, а также тезисов об оставшейся части: http://eutils.ncbi.nlm.nih.gov/corehtml/query/static/efetchlit_help.html
Другой альтернативой является использование службы OAI: http://www.ncbi.nlm.nih.gov/pmc/tools/oai/
Служба OAI ужасно документирована, но некоторые советы по ее запуску приведены здесь: http://www.biostars.org/p/2076/#13338
Если вы хотите поддерживать и обновлять репозиторий PMC, попробуйте pubtools: http://code.google.com/p/pubtools/