Вы можете использовать Python для достижения этой цели.То, что вы ищете, это фильтрация английских слов.
Сначала токенизируйте предложения.(Разбить предложения на слова)
Использовать библиотеку Python langdetect, чтобы узнать, английское это слово или нет
Фильтровать все английские слована основе вывода langdetect.
Как установить библиотеку:
$ sudo pip install langdetect
Supported Python versions 2.6, 2.7, 3.x.
>>> from langdetect import detect
>>> detect("War doesn't show who's right, just who's left.")
'en'
>>> detect("Ein, zwei, drei, vier")
'de'
https://pypi.python.org/pypi/langdetect?
PS: Донне ожидайте, что это будет работать правильно всегда:
>>> detect("today is a good day")
'so'
>>> detect("today is a good day.")
'so'
>>> detect("la vita e bella!")
'it'
>>> detect("khoobi? khoshi?")
'so'
>>> detect("wow")
'pl'
>>> detect("what a day")
'en'
>>> detect("yay!")
'so'