Question

Мне нужен анализатор, который будет сканировать научные тексты, извлекать цитаты и разбирать эти цитаты на составные части (автор, название, дата публикации и т. Д.).

Я пробовал Paracite, но он отвратительно медленный и не дает качественных результатов.

Любой язык в порядке, но Java предпочтительнее.

NPE · Answer 1 · 16 сентября 2011

Взгляните на ParsCit:

Это домашняя страница проекта ParsCit, который выполняет две задачи: 1) разбор ссылочной строки, иногда также называемыйразбор цитирования или извлечение цитирования, и 2) разбор логической структуры научных документов.Он спроектирован как контролируемая процедура машинного обучения, которая использует условные случайные поля в качестве механизма обучения.Вы можете скачать приведенный ниже код, проанализировать строки в Интернете или отправить пакетные задания на наш веб-сервис.Код содержит как данные обучения, генератор функций и сценарии оболочки для подключения системы к веб-службе (используется на этом веб-сайте).

inukshuk · Answer 2 · 20 мая 2014

Недавно мы столкнулись с подобной проблемой и в итоге написали наш собственный парсер, основанный на ParsCit, но использующий Wapiti вместо CRF ++ для модели условных случайных полей.Как упоминал Майк выше, проблема парсеров на основе ML заключается в получении хороших тегированных данных обучения;для этого мы написали визуальный редактор, который позволяет вам пометить результаты (и сохранить их как данные обучения).Этот подход очень хорошо подходит для анализа библиографий.

Если кому-то интересно, мы сделали парсер и редактор доступными здесь по адресу anystyle.io .

Erik · Answer 3 · 16 января 2017

Вы также можете попробовать этот небольшой инструмент для разбора академических ссылок на поля:

http://citationparser.com

Citationparser.com все еще бета, но версия 2017 года работает хорошо, особенно для статей в журналах, нотакже для монографий и глав книг.

Список не обязательно должен быть в ОДНОМ стиле, но может быть смесью различных официальных или неофициальных стилей

Вы можете просматривать ссылки и проверять полный текст, или вы можете экспортировать какФайл сноски (.ENL).Я разработал этот инструмент только для небольших списков из сотен названий.Если вы вставите список с более чем 1000 заголовками, он будет работать намного медленнее.

Max · Answer 4 · 05 октября 2013

Список проектов здесь: https://forums.zotero.org/discussion/1211/

Cb2bib использует регулярные выражения http://www.molspaces.com/cb2bib/

Citeseer использует большой список имен и названий авторов. Вы можете посмотреть их список публикаций

Вот проект, но на python: https://code.google.com/p/pdfssa4met/

Также посмотрите эти вопросы stackoverflow: * Извлечение информации из PDF научных статей

mcfinnigan · Answer 5 · 16 сентября 2011

Вы можете попробовать поискать в библиотеке индексирования / поиска, например Lucene

Ищу парсер цитирования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ищу парсер цитирования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы