У меня есть требование получать данные оптического распознавания (OCR) из файлов PDF и изображений в S3, чтобы пользователь мог выполнять поиск по этим данным распознавания. Я использую AWS Textract для извлечения текста для получения данных OCR.
Я планировал сохранить данные OCR в DB Dynamo и выполнить поиск в этом.
Проблема, с которой я столкнулся Это из-за ограничения размера элементов динамо-базы данных, которое ограничено 400 КБ.
У меня есть ситуация, когда пользователь загружает PDF-файл объемом более 100 МБ в S3, где извлеченное текстовое содержимое будет превышать этот предел. Итак, каков наилучший подход в этом случае?
Пожалуйста, помогите Спасибо заранее!