У нас есть миллионы простых текстовых документов, содержащих различные структуры данных, которые мы извлекли из pdf, текст печатается построчно, поэтому все форматирование теряется (потому что, когда мы пытались использовать инструменты для поддержания формата, они просто испортили его). Нам нужно извлечь поля и их значения из этого текстового документа, но есть некоторые различия в структуре этих файлов (новая строка здесь и там, шум на некоторых листах, поэтому написание некорректно).
Я думал, что мы создадим некую структуру шаблона с информацией о координатах (строка, число слов / слов) ключевых слов и значений и будем использовать эту информацию для поиска и сбора значений ключевых слов, используя различные алгоритмы для несовместимое форматирование.
Есть ли какой-нибудь стандартный способ сделать это, какие-нибудь ссылки, которые могут помочь? какие-нибудь другие идеи?