Python NLP дифференциация британского английского и американского английского - PullRequest
0 голосов
/ 01 октября 2019

В настоящее время я работаю над проектом, использующим nlp и python. У меня есть контент и мне нужно найти язык. Я использую spacy для определения языка. Библиотеки предоставляют только язык как английский. мне нужно найти британский или американский английский? Любые предложения?

Я пробовал с Spacy, NLTK, lang-обнаружить. но эти библиотеки предоставляют только английский. но мне нужно отобразить как en-GB для британских и en-US для американских.

1 Ответ

1 голос
/ 01 октября 2019

Вы можете тренировать свою собственную модель. Многие географически специфические данные по английскому языку были собраны Лейпцигским университетом , но они не включают американский английский. Американский национальный корпус , если вы можете использовать бесплатное подмножество.

Популярная библиотека для языка langid.py позволяет обучать вашу собственную модель. У них есть хороший учебник по github . Их модель основана на частотах триграмм символов, которые в этом случае могут не быть достаточно отличительной статистикой.

Другой вариант - обучить классификатор поверх BERT, используя, например, Pytorch и transormers библиотека. Это, безусловно, даст очень хорошие результаты, но если у вас нет опыта глубокого обучения, это может быть очень много работы для вас.

...