Как мне научиться находить вхождение штата США в НЛП? - PullRequest
3 голосов
/ 08 мая 2020

Как мне научиться находить вхождение штата США, когда этот набор ограничен 50 состояниями, потому что нам нужен большой объем данных (скажем, 1000 строк) для обучения определенной метки.

1 Ответ

2 голосов
/ 11 мая 2020

Думаю, это зависит от задачи, которую вы здесь пытаетесь решить. Вам нужно различать, являются ли некоторые двухбуквенные комбинации названием штата США или нет? Подойдет простой набор имен? Или вы пытаетесь построить какой-то простой NER (https://en.wikipedia.org/wiki/Named-entity_recognition) для имен состояний? Таким образом, вы также можете начать с простого сопоставления по регулярному выражению, но если вы хотите обучить какую-либо модель позже, у вас есть гораздо больше, чем 50 примеров. Ваш набор данных будет не просто «представляют ли эти две буквы состояние или нет», а будет много предложений, в которых есть имена состояний где-то в них, или их нет вообще.

...