Я не нашел хорошего решения для этого, я решил это с помощью следующего:
1) фильтр по атрибуту lang, равный "en".
2) Iобнаружил, что несколько неанглийских языков все еще находятся в английских помеченных твитах.Итак, я загрузил списки испанских, голландских и индонезийских слов и проверил количество вхождений неанглийских слов в твиты.Больше 1, и я отбрасываю его как неанглийский.
3) Я думаю, мне нужно отфильтровать и португальский, нужно исследовать это.