извлекать дату из квитанции об операции - PullRequest
0 голосов
/ 11 июня 2019

Я пытаюсь извлечь даты из квитанций транзакций.Я преобразовал PDF в изображения и использовал ocr для извлечения всех данных из изображений.Я преобразовал файлы в HTML-файлы, используя Hocr, чтобы я мог извлечь данные, используя ключевые слова из тегов элементов.Мне нужно извлечь дату счета из квитанции.проблема заключается в том, что для этих квитанций нет определенного формата или шаблона, а даты имеют разные форматы и размещаются в разных местах документов.Я пытаюсь использовать ключевое слово "date", чтобы получить родительский класс ключевого слова, чтобы получить дату, но это работает только для нескольких файлов.Можете ли вы дать мне знать, как проверить, есть ли у родительского тега числа с использованием Beautifulsoup в Python.если есть какой-либо другой метод, пожалуйста, дайте мне знать

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...