Я хотел бы использовать AWS Textract для преобразования моего изображения в таблицы в python и загрузить его как CSV.
Итак, я следовал документации и примерам кода из AWS здесь: https://github.com/awsdocs/aws-doc-sdk-examples/blob/master/python/example_code/textract/textract_python_table_parser.py
Очевидно, что код по ссылке выше разделит запятые в целых числах в другой столбец. Я объясню с изображением и шагами, чтобы воспроизвести ошибку ниже:
Так что это пример моей таблицы в виде изображения. 
Если вы хотите воспроизвести ошибку, клонируйте код в репозитории github и введите следующий код в свой cmd / терминал
python textract_python_table_parser.py <your-image-filename.png>
ошибка приведена ниже:

Как видно из столбца ["Сумма (USD)"], значения с запятыми внутри него будут разбиваться в столбец [«Дата транзакции»]. Даже я прочитал файл csv в pandas, также не работал.
Интересно, какая строка кода в репозитории GitHub разбила разделение запятой на другой столбец