Лучший способ извлечь пары ключ-значение из неструктурированной строки? - PullRequest
0 голосов
/ 09 декабря 2018

Избегание большинства жестко закодированных правил для определенных шаблонов.

В настоящее время я работаю над проектом, аналогичным AWS Textract, ссылка здесь .Я успешно извлекал данные из файлов, но неструктурированным способом.Теперь я пытаюсь выяснить, и наилучшим образом, как получить существующие пары ключ-значение из этого набора информации.

Например, у нас есть такой текст:

В этом документе мы найдем различные ключ и значения, такие как этот идентификатор: 1 и эта страна: Франция без конкретной пунктуации и, вероятно, говорящая о том, насколько хорошо мое здоровье ...

извлечение было бы примерно таким:

id : 1
country : France
health : good

Что я на самом деле знаю, так это то, что Amazon использует переменную «достоверность» для извлечения информации из такого сценария, который, я думаю, включает в себя некоторый алгоритм машинного обучения.В моем случае у меня нет такой большой базы данных, чтобы учиться у нее.

Я почти уверен, что есть более простое решение, не менее гибкое.

1 Ответ

0 голосов
/ 09 декабря 2018

Я считаю, что библиотека spaCy может быть правильным инструментом для ваших нужд.Ознакомьтесь с описанием на GitHub, чтобы выяснить это.

Он может быть открыт для Node JS с использованием пакета spacy-nlp .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...