AWS Извлечение таблицы Textract разбивало строки с целыми числами, в которых запятая, в другой столбец - PullRequest
0 голосов
/ 04 марта 2020

Я хотел бы использовать AWS Textract для преобразования моего изображения в таблицы в python и загрузить его как CSV.

Итак, я следовал документации и примерам кода из AWS здесь: https://github.com/awsdocs/aws-doc-sdk-examples/blob/master/python/example_code/textract/textract_python_table_parser.py

Очевидно, что код по ссылке выше разделит запятые в целых числах в другой столбец. Я объясню с изображением и шагами, чтобы воспроизвести ошибку ниже:

Так что это пример моей таблицы в виде изображения. enter image description here

Если вы хотите воспроизвести ошибку, клонируйте код в репозитории github и введите следующий код в свой cmd / терминал

python textract_python_table_parser.py <your-image-filename.png>

ошибка приведена ниже:

enter image description here

Как видно из столбца ["Сумма (USD)"], значения с запятыми внутри него будут разбиваться в столбец [«Дата транзакции»]. Даже я прочитал файл csv в pandas, также не работал.

Интересно, какая строка кода в репозитории GitHub разбила разделение запятой на другой столбец

1 Ответ

1 голос
/ 05 марта 2020

Только что обнаружил, что в ссылке GitHub для строки 114 просто добавьте "" к фигурной скобке:

csv += '"{}"'.format(text) + ","

Причина в том, чтобы преобразовать все тексты в строку поэтому CSV не будет учитывать запятые внутри строки при форматировании.

...