Я использую сканер и хочу получить только сайты контента Engli sh, но заголовок некоторых сайтов равен en , а атрибут lang - en , но содержимое Сам по себе это не Engli sh, так что это то, что я делаю до сих пор:
WebHeaderCollection headers = myWebResponse.Headers;
bool eng = false;
for (int i = 0; i < headers.AllKeys.Length; i++)
{
if (headers.AllKeys[i] == "Content-Language")
{
for (int j = 0; j < headers.GetValues(i).Length; j++)
{
if (headers.GetValues(i)[j] == "en")
{
eng = true;
break;
}
}
}
if (eng == true) break;
}
IHTMLElementCollection elements = doc.links;
var language = agilityDoc.DocumentNode.SelectSingleNode("//html").Attributes["lang"];
//string language = (string)y.documentElement.getAttribute("lang", 0);
Console.WriteLine(tempurl, language); // for debugging
if (language == null || language.Value.Contains("en") || eng == true)
{
Insert(tempurl, doc.body.innerText); // insert into database
counter++;
}
Я также хочу игнорировать все веб-сайты, которые написаны с помощью сценария, как это: https://www.instagram.com/wikimediafoundation/ см. Страницу источника: view-source: https://www.instagram.com/wikimediafoundation/ но я не знаю, как это сделать