Вероятно, нет идеального единственного решения, вам нужно иметь набор проверок и выполнять их по одной за раз. Возможно, вы захотите начать с тех, которые могут определять язык, если html-страница правильно сформирована согласно ответу tonymarschall.
В качестве резервной проверки вы можете использовать список английских стоп-слов , они используются в поисковых системах для фильтрации наиболее распространенных слов в языке. В вашем случае вам придется рассчитывать их вхождения в текстовых частях HTML-страницы. Если они превышают определенное значение, вы можете сделать довольно хорошее предположение, что вы смотрите на текст на английском языке.
Попробуйте поискать список здесь . Также эта статья показывает N-граммовый подход, который вы также можете использовать.