Что касается сквозного решения проблем, Textract будет работать лучше, потому что он более полнофункциональный для OCR.
Textract - это более новый сервис AWS, созданный как специально разработанное решение проблемы оптического распознавания символов в изображениях (и PDF-файлах). В то время как Rekognition является более универсальной службой компьютерного зрения, Textract имеет гораздо больше параметров настройки, ориентированных на оптическое распознавание символов, для оптимизации процесса точного и эффективного извлечения текста.
Из коробки, если все, что вы пытаетесь сделать, это обнаружить текст и соответствующие метаданные (координаты, угол, значение достоверности), метод Rekognition DetectText
, скорее всего, будет работать аналогично методу analyze_document
, эквивалентному в Textract. Однако Textract предлагает дополнительную настройку, которая помогает с обработкой / форматированием текста, абстрагируясь от других форм постобработки, которые разработчик традиционно должен был бы написать сам.
Примечание. На сегодняшний день (6/6/19) Textract
в настоящее время все еще находится в режиме ограниченного предварительного просмотра, поэтому в зависимости от того, насколько быстро вам нужно построить решение, это еще один вопрос, который следует учитывать.