НЛП: извлечение специфичных для домена данных из файлов PDF - PullRequest
0 голосов
/ 21 января 2019

НЛП Проблема: У меня есть PDF-файл, который содержит важную информацию, которую необходимо извлечь. Некоторые из них находятся в парах ключ-значение. , Например, файл PDF содержит следующую информацию.

  • Имя: мистер Джон Вик
  • Игрушка куплена: Пушка
  • Цена: 2000 фунтов

  • Дата: XYZ

Однако не все документы будут иметь одинаковые ключи, например, в некоторых документах это может быть

  • Цена товара: £ 4000
  • Текущая дата или дата покупки: ABC
  • Купленная игрушка и т. Д.

Каков наилучший способ извлечь эти данные?

...