AWS Textract - UnsupportedDocumentException - PDF - PullRequest
0 голосов
/ 03 марта 2020

Я использую boto3 (aws sdk для python), чтобы проанализировать документ (pdf), чтобы получить ключ формы: пары значений.

import boto3

def process_text_analysis(bucket, document):
    # Get the document from S3
    s3_connection = boto3.resource('s3')
    s3_object = s3_connection.Object(bucket, document)
    s3_response = s3_object.get()
    # Analyze the document
    client = boto3.client('textract')
    response = client.analyze_document(Document={'S3Object': {'Bucket': bucket, 'Name': document}},
                                       FeatureTypes=["FORMS"])


process_text_analysis('francismorgan-01', '709 Privado M SURESTE.pdf')

Я следовал за документацией для AWS, используя Анализ документа, и когда я запускаю свою функцию, я получаю сообщение об ошибке.

botocore.errorfactory.UnsupportedDocumentException: An error occurred (UnsupportedDocumentException) when calling the AnalyzeDocument operation: Request has unsupported document format

Я что-то упустил?

1 Ответ

1 голос
/ 03 марта 2020

AnalyzeDocument - это синхронный API, который поддерживает только изображения в формате PNG или JPG.

Поскольку вы хотите работать с файлами PDF, вам потребуется использовать Amazon Textract Asynchronous API Например StartDocumentAnalysis , StartDocumentTextDetection

...