Как бороться с различными сценариями и языком в НЛП? - PullRequest
0 голосов
/ 24 января 2020

В настоящее время я работаю над проектом, который требует, чтобы я очистил твиты, чтобы использовать их для какой-либо модели НЛП. Одна серьезная проблема, с которой я столкнулся при очистке данных, заключается в том, что у большого количества твитов были разные сценарии и язык. Например, может быть твит, написанный на английском / римском шрифте (то есть с использованием алфавитов Engli sh), но реальным языком, используемым в твите, будет что-то вроде хинди или японского языка, которые имеют свои собственные выделенные скрипты.

Я пытался использовать API Google Translate, но он не работал должным образом, потому что он предполагает, что язык - либо Engli sh, либо какой-то другой язык, который использует сценарий, аналогичный Engli sh, как французский , Есть ли способ решить эту проблему, кроме полного отказа от твитов?

...