Полнотекстовые PDF-файлы для статей PubMed - PullRequest
5 голосов
/ 14 января 2011

Во время работы над проектом мне нужно загрузить и обработать полнотекстовые статьи для тезисов PubMed, есть ли какой-либо реализованный код или инструмент, который позволяет пользователю вводить набор идентификаторов PubMed и загружать бесплатные полнотекстовые статьи для них. Любая помощь или советы с благодарностью.

Ответы [ 2 ]

6 голосов
/ 15 января 2011

Я не думаю, что это вообще возможно, из-за природы PubMed.Лучшее, что вы собираетесь сделать, - это получить статьи из подмножества открытого доступа PubMedCentral.PubMedCentral имеет количество онлайн-утилит для выполнения работы.

4 голосов
/ 11 января 2012

Утилиты, на которые указывает StompChicken, предназначены для издателей для проверки их XML перед отправкой в ​​PMC, они не являются инструментами для загрузки.

Обратите внимание, что подавляющее большинство статей в PMC не имеют открытого доступа (OA) и поэтому не могут быть загружены автоматически (легально) каким-либо образом. NCBI предупреждает:

  • На большинство статей в PMC распространяются традиционные ограничения авторского права, и они не являются частью этого подмножества. Прочитайте Уведомление об авторских правах PMC для получения дополнительной информации.
  • Сервис PMC OAI и сервис PMC FTP являются единственными сервисами, которые можно использовать для автоматической загрузки статей из этого подмножества открытого доступа.
  • Систематический поиск (массовая загрузка) статей с помощью любого другого автоматизированного процесса запрещен, даже если вы извлекаете статьи только из этого подмножества.
  • Некоторые журналы используют ярлык «открытый доступ» для статьи, которая доступна бесплатно на момент публикации, но все еще подлежит традиционным ограничениям авторского права. Такие статьи не являются частью этого подмножества.

Для загрузки контента PMC лучше всего использовать FTP-сервис PMC Open Access: http://www.ncbi.nlm.nih.gov/pmc/tools/ftp/

Вы также можете использовать eutils для запроса PMC и загрузки полного текста подмножества OA, а также тезисов об оставшейся части: http://eutils.ncbi.nlm.nih.gov/corehtml/query/static/efetchlit_help.html

Другой альтернативой является использование службы OAI: http://www.ncbi.nlm.nih.gov/pmc/tools/oai/

Служба OAI ужасно документирована, но некоторые советы по ее запуску приведены здесь: http://www.biostars.org/p/2076/#13338

Если вы хотите поддерживать и обновлять репозиторий PMC, попробуйте pubtools: http://code.google.com/p/pubtools/

...