Ну, некоторые веб-страницы содержат атрибут "lang" или "xml: lang" в элементе html. Например:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head>
<title></title>
<meta http-equiv="content-type" content="text/html;charset=utf-8" />
</head>
<body>
</body>
</html>
В этом примере атрибуты "lang" и "xml: lang" установлены как "en" (т.е. на английском языке). Кроме того, некоторые серверы могут устанавливать заголовок «Content-Language», и вы можете проверить это значение. (Хотя, если честно, я на самом деле не видел сервер, который устанавливает это значение).
Однако значение этих атрибутов или заголовков может быть любым, и некоторые серверы и веб-страницы вообще не будут указывать язык. Но вы, вероятно, захотите найти коды общего языка, определенные как ISO-639 и ISO-3166 .
Что касается реализации этого в C #, я признаю это: я понятия не имею. Но я думаю, что класс WebResponse имеет свойство под названием Headers , на которое вы, возможно, захотите взглянуть.
О, и для таких языков, как хинди, я почти уверен, что они содержат символы, уникальные для этого языка. В этом случае вы можете выполнить поиск в строке htmlText любого из этих конкретных символов.
Существует также простой метод проверки строки htmlText на наличие слов, общих для определенного языка. Например, если вы хотите узнать, является ли страница французской, вы можете найти слово «bonjour» и т. Д.