Избегание большинства жестко закодированных правил для определенных шаблонов.
В настоящее время я работаю над проектом, аналогичным AWS Textract, ссылка здесь .Я успешно извлекал данные из файлов, но неструктурированным способом.Теперь я пытаюсь выяснить, и наилучшим образом, как получить существующие пары ключ-значение из этого набора информации.
Например, у нас есть такой текст:
В этом документе мы найдем различные ключ и значения, такие как этот идентификатор: 1 и эта страна: Франция без конкретной пунктуации и, вероятно, говорящая о том, насколько хорошо мое здоровье ...
извлечение было бы примерно таким:
id : 1
country : France
health : good
Что я на самом деле знаю, так это то, что Amazon использует переменную «достоверность» для извлечения информации из такого сценария, который, я думаю, включает в себя некоторый алгоритм машинного обучения.В моем случае у меня нет такой большой базы данных, чтобы учиться у нее.
Я почти уверен, что есть более простое решение, не менее гибкое.