Вы можете тренировать свою собственную модель. Многие географически специфические данные по английскому языку были собраны Лейпцигским университетом , но они не включают американский английский. Американский национальный корпус , если вы можете использовать бесплатное подмножество.
Популярная библиотека для языка langid.py позволяет обучать вашу собственную модель. У них есть хороший учебник по github . Их модель основана на частотах триграмм символов, которые в этом случае могут не быть достаточно отличительной статистикой.
Другой вариант - обучить классификатор поверх BERT, используя, например, Pytorch и transormers библиотека. Это, безусловно, даст очень хорошие результаты, но если у вас нет опыта глубокого обучения, это может быть очень много работы для вас.