Я начал экспериментировать с aws-textract
, особенно с detect-document-text
(Документы: https://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html). Для одного примера, где содержимое изображения:
This is the first line
should continue here.
This is the second line.
detect-document-text
output, возвращает JSON
, где каждый узел BlockType
имеет значение WORD
, LINE
или PAGE
(Некоторые другие элементы прикреплены, например, Relationships
, где определены type
и список Id
, Geometry
информация (координаты), Confidence
и т. Д. c). В этом случае выходные данные будут содержать BlockType
(LINE
) для каждой строки (как и ожидалось), что-то вроде этого:
{
...
{
...
"BlockType": "LINE",
"Confidence": 97.8960189819336,
"Text": "This is the first line",
...
},
{
...
"BlockType": "LINE",
"Confidence": 97.8960189819336,
"Text": "should continue here.",
...
},
{
...
"BlockType": "LINE",
"Confidence": 97.8960189819336,
"Text": "This is the second line.",
...
},
...
}
Мой вопрос следующий, есть ли параметр которые могут быть перезаписаны (например, значение диапазона для строк или ячеек, чтобы сохранить один узел по «предложению») или опция типа для группировки строк по абзацу (на основе вычисленных координат) с намерением иметь полные предложения? Или это обязательная постобработка со стороны клиента? Удивление, похоже, является распространенным сценарием, поэтому пытаемся выяснить, предлагается ли он уже textract
или каким-либо другим aws
сервисом, используя textract
output JSON
.