aws textract - Группировать выходные строки по парраграфу - PullRequest
0 голосов
/ 25 апреля 2020

Я начал экспериментировать с aws-textract, особенно с detect-document-text (Документы: https://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html). Для одного примера, где содержимое изображения:

This is the first line
should continue here.

This is the second line.

detect-document-text output, возвращает JSON, где каждый узел BlockType имеет значение WORD, LINE или PAGE (Некоторые другие элементы прикреплены, например, Relationships, где определены type и список Id, Geometry информация (координаты), Confidence и т. Д. c). В этом случае выходные данные будут содержать BlockType (LINE) для каждой строки (как и ожидалось), что-то вроде этого:

{
...
  {
    ...
    "BlockType": "LINE",
    "Confidence": 97.8960189819336,
    "Text": "This is the first line",
    ...
  },
  {
    ...
    "BlockType": "LINE",
    "Confidence": 97.8960189819336,
    "Text": "should continue here.",
   ...
  },
  {
    ...
    "BlockType": "LINE",
    "Confidence": 97.8960189819336,
    "Text": "This is the second line.",
   ...
  },
  ...
}

Мой вопрос следующий, есть ли параметр которые могут быть перезаписаны (например, значение диапазона для строк или ячеек, чтобы сохранить один узел по «предложению») или опция типа для группировки строк по абзацу (на основе вычисленных координат) с намерением иметь полные предложения? Или это обязательная постобработка со стороны клиента? Удивление, похоже, является распространенным сценарием, поэтому пытаемся выяснить, предлагается ли он уже textract или каким-либо другим aws сервисом, используя textract output JSON.

1 Ответ

0 голосов
/ 27 апреля 2020

Глядя на Textract DetectDocumentText API, синтаксис запроса принимает только Document & S3Object в качестве параметров

 {
  "Document": { 
  "Bytes": blob,
  "S3Object": { 
     "Bucket": "string",
     "Name": "string",
     "Version": "string"
   }
 }
}

т.е. это означает, что нет никакого дополнительного параметра, который можно использовать с API для преобразования вывода JSON в строки групп по абзацам

Вам нужно будет создать свой собственный лог c, если вы wi sh для обработки выходных данных с целью группировки строк по абзацам.

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...