Как я могу сгенерировать файл PDF из вывода Amazon Textract? - PullRequest
0 голосов
/ 25 марта 2019

Я использую Amazon Textract для извлечения данных из отсканированного документа.Теперь я хочу преобразовать вывод в файл PDF.Ниже приведен пример выходных данных Textract:

[1] => Array
                    (
                        [BlockType] => LINE
                        [Confidence] => 99.4744720459
                        [Text] => Hello
                        [Geometry] => Array
                            (
                                [BoundingBox] => Array
                                    (
                                        [Width] => 0.243866533041
                                        [Height] => 0.0134594505653
                                        [Left] => 0.176409825683
                                        [Top] => 0.0463116429746
                                    )

                                [Polygon] => Array
                                    (
                                        [0] => Array
                                            (
                                                [X] => 0.176409825683
                                                [Y] => 0.0463116429746
                                            )

                                        [1] => Array
                                            (
                                                [X] => 0.420276373625
                                                [Y] => 0.0463116429746
                                            )

                                        [2] => Array
                                            (
                                                [X] => 0.420276373625
                                                [Y] => 0.0597710944712
                                            )

                                        [3] => Array
                                            (
                                                [X] => 0.176409825683
                                                [Y] => 0.0597710944712
                                            )

                                    )

                            )

                        [Id] => 75e8917d-701e-4e26-bade-f00bde9d87db
                        [Relationships] => Array
                            (
                                [0] => Array
                                    (
                                        [Type] => CHILD
                                        [Ids] => Array
                                            (
                                                [0] => 46f44500-4960-4405-99f3-fa43101bc2ca
                                            )

                                    )

                            )

                    )

Как видите, выходные данные содержат текст, высоту, ширину и его координаты XY.Как поместить текст с такими же координатами в файл PDF?

1 Ответ

0 голосов
/ 02 апреля 2019

Предполагая, что вы можете преобразовать вышеуказанное в JSON, вы можете использовать jsPDF или PDFkit для создания PDF. Функциональность отображается довольно хорошо, основываясь на ограниченных данных, которые вы разместили, но я не видел полной структуры Textract, так как он все еще находится в бета-версии, и я не получил приглашение в программу. Оба этих проекта могут использовать Node для создания серверного решения, но они также работают в браузере.

На момент написания этой статьи в Google Cloud был компонент OCR в функции Vision - Обнаружение текста документа . В отличие от Textract, он подходит к этой задаче, просто сообщая о визуальных элементах документа и создавая всеобъемлющую (и большую) структуру данных, которая описывает то, что он «видит». Согласно Amazon, Textract использует машинное обучение, чтобы упорядочить данные в более понятной для человека форме, которая стремится отличить форму от данных, составляющих заполненную часть формы. Если вы пытаетесь создать относительно полный PDF, продукт Google хорошо подойдет. Textract может быть тоже, но я пока не знаю.

...