Сборка токенайзера НЛП Стэнфорд - PullRequest
0 голосов
/ 14 апреля 2019

Я пытаюсь создать программу, которая будет распознавать сущности из определенного текста (банковские операции). Я тренировал Stanford NER, но у меня есть некоторые проблемы с токенизацией данных. Токенизация действительно важна, потому что транзакции очень специфичны, иногда запятая должна быть разделителем, а иногда не должна быть в одной транзакции. например, если имя продавца разделено запятой «Merchant, McDonald's», оно должно быть разделено на [«Merchant», «McDonald's»], но когда указана сумма «100 000 долларов США», оно должно быть сохранено как «100 000 долларов США». ». Поэтому я думаю, что мне следует обучить модели, которая будет маркировать транзакцию, и тогда NER будет маркировать сущности, например. Название продавца, сумма, дата и т. Д.

Позволяет ли Stanford-NLP обучить модель токенизации, а затем создать конвейер, который сначала токенизирует транзакцию, а затем запускает ее в модели NER для маркировки данных? если да, то как мне это сделать?

...