Извлечение конкретной информации из научных статей - PullRequest
0 голосов
/ 23 октября 2018

Я ищу конкретную информацию, которую мне нужно извлечь из научных работ.Информация в основном хранится в разделах «Оценка» или «Реализация».Мне нужно извлечь из содержимого имя любой функции, параметр, имя файла, имя приложения, версию приложения.Существует ли какой-либо метод НЛП / алгоритм машинного обучения для извлечения информации такого типа из научных работ?

1 Ответ

0 голосов
/ 26 октября 2018

Мне неизвестно о готовых приложениях, выполняющих эту конкретную задачу (хотя это не означает, что ее нет, и для этого могут быть коммерческие решения).Но есть варианты с открытым исходным кодом, которые, вероятно, позволят вам сделать то, что вы хотите, с небольшим количеством работы (аннотации и / или написание правил):

  • GATE (имеет«удобный» графический интерфейс, поэтому вам не нужно кодировать, если вы этого не хотите)
  • Реверберация
  • Stanford OpenIE
  • канарейка (ориентирована на клиническую НЛП по внешнему виду, но может применяться более широко)
  • GROBID (похожеполезно разбивать статьи на разделы)

Кроме того, вы можете создать собственное решение поверх библиотек, таких как NLTK или spaCy (если выкод на Python) или Stanford CoreNLP (Java).Похоже, вам нужно будет сначала идентифицировать разделы документа, а затем искать шаблоны в них.Используете ли вы машинное обучение или подход, основанный на правилах, это, вероятно, потребует немалой работы.Если у вас есть предопределенный список предметов, которые вы ищете, это сделает вашу жизнь намного проще!

...