Думаю, это зависит от задачи, которую вы здесь пытаетесь решить. Вам нужно различать, являются ли некоторые двухбуквенные комбинации названием штата США или нет? Подойдет простой набор имен? Или вы пытаетесь построить какой-то простой NER (https://en.wikipedia.org/wiki/Named-entity_recognition) для имен состояний? Таким образом, вы также можете начать с простого сопоставления по регулярному выражению, но если вы хотите обучить какую-либо модель позже, у вас есть гораздо больше, чем 50 примеров. Ваш набор данных будет не просто «представляют ли эти две буквы состояние или нет», а будет много предложений, в которых есть имена состояний где-то в них, или их нет вообще.