Как сохранить извлеченный текст из изображений в структурированном формате в файле txt / doc - PullRequest
1 голос
/ 28 марта 2019

Как я хочу извлечь текст из изображений (это выписка из банковской транзакции), что я успешно сделал.Но это дает мне необработанные данные.Не в структурированном формате, как показано на рисунке.

Я попытался сделать это, поиграв с их вершинами.Но я только что нашел значение «описание» и «вершины» в формате списка.Как мне двигаться дальше, чтобы сохранить его в файл doc / txt в хорошо структурированном формате?

Мой код:

os.environ["GOOGLE_APPLICATION_CREDENTIALS"]="C:\\Users\\...."
client = ImageAnnotatorClient()
list1=[]
list2=[]
def detect_text(Image_path):
    with io.open(Image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.types.Image(content=content)
    response = client.text_detection(image=image)
    web_content = response.web_detection
    web_content.best_guess_labels

    texts = response.text_annotations

    for text in texts:
        #print (text)
        for vertex in text.bounding_poly.vertices:

            list1.append(vertex)

        b=[text.description for text in texts]

    list2=b[1:]
    print(list2)
    print(list1)
detect_text(Image_path)

Я получил вывод, подобный этому:

['IDBI', 'BANK', 'Customer', 'ID'......]
[x: 229
y: 241
, x: 2331
y: 241
, x: 2331
y: 3350
, x: 229
...
...
]

Но ожидалось: чтобы получить вывод в виде выписки по счету, похожим на .ie в структурированном формате.Который я могу плавно сохранить и отобразить в txt / doc файле

1 Ответ

0 голосов
/ 28 марта 2019

Я бы порекомендовал вам использовать библиотеку textract вместо любых других вещей.

Справочная ссылка - https://textract.readthedocs.io/en/stable/

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...