Ищу парсер цитирования - PullRequest
       8

Ищу парсер цитирования

5 голосов
/ 16 сентября 2011

Мне нужен анализатор, который будет сканировать научные тексты, извлекать цитаты и разбирать эти цитаты на составные части (автор, название, дата публикации и т. Д.).

Я пробовал Paracite, но он отвратительно медленный и не дает качественных результатов.

Любой язык в порядке, но Java предпочтительнее.

Ответы [ 5 ]

4 голосов
/ 16 сентября 2011

Взгляните на ParsCit:

Это домашняя страница проекта ParsCit, который выполняет две задачи: 1) разбор ссылочной строки, иногда также называемыйразбор цитирования или извлечение цитирования, и 2) разбор логической структуры научных документов.Он спроектирован как контролируемая процедура машинного обучения, которая использует условные случайные поля в качестве механизма обучения.Вы можете скачать приведенный ниже код, проанализировать строки в Интернете или отправить пакетные задания на наш веб-сервис.Код содержит как данные обучения, генератор функций и сценарии оболочки для подключения системы к веб-службе (используется на этом веб-сайте).

2 голосов
/ 20 мая 2014

Недавно мы столкнулись с подобной проблемой и в итоге написали наш собственный парсер, основанный на ParsCit, но использующий Wapiti вместо CRF ++ для модели условных случайных полей.Как упоминал Майк выше, проблема парсеров на основе ML заключается в получении хороших тегированных данных обучения;для этого мы написали визуальный редактор, который позволяет вам пометить результаты (и сохранить их как данные обучения).Этот подход очень хорошо подходит для анализа библиографий.

Если кому-то интересно, мы сделали парсер и редактор доступными здесь по адресу anystyle.io .

1 голос
/ 16 января 2017

Вы также можете попробовать этот небольшой инструмент для разбора академических ссылок на поля:

http://citationparser.com

Citationparser.com все еще бета, но версия 2017 года работает хорошо, особенно для статей в журналах, нотакже для монографий и глав книг.

Список не обязательно должен быть в ОДНОМ стиле, но может быть смесью различных официальных или неофициальных стилей

Вы можете просматривать ссылки и проверять полный текст, или вы можете экспортировать какФайл сноски (.ENL).Я разработал этот инструмент только для небольших списков из сотен названий.Если вы вставите список с более чем 1000 заголовками, он будет работать намного медленнее.

1 голос
/ 05 октября 2013

Список проектов здесь: https://forums.zotero.org/discussion/1211/

Cb2bib использует регулярные выражения http://www.molspaces.com/cb2bib/

Citeseer использует большой список имен и названий авторов. Вы можете посмотреть их список публикаций

Вот проект, но на python: https://code.google.com/p/pdfssa4met/

Также посмотрите эти вопросы stackoverflow: * Извлечение информации из PDF научных статей

0 голосов
/ 16 сентября 2011

Вы можете попробовать поискать в библиотеке индексирования / поиска, например Lucene

...