Как я могу проверить язык содержимого URL? - PullRequest
0 голосов
/ 29 марта 2020

Я использую сканер и хочу получить только сайты контента Engli sh, но заголовок некоторых сайтов равен en , а атрибут lang - en , но содержимое Сам по себе это не Engli sh, так что это то, что я делаю до сих пор:

WebHeaderCollection headers = myWebResponse.Headers;

                bool eng = false;
                for (int i = 0; i < headers.AllKeys.Length; i++)
                {
                    if (headers.AllKeys[i] == "Content-Language")
                    {
                        for (int j = 0; j < headers.GetValues(i).Length; j++)
                        {
                            if (headers.GetValues(i)[j] == "en")
                            {
                                eng = true;
                                break;
                            }
                        }
                    }
                    if (eng == true) break;
                }

                IHTMLElementCollection elements = doc.links;


                var language = agilityDoc.DocumentNode.SelectSingleNode("//html").Attributes["lang"];
                //string language = (string)y.documentElement.getAttribute("lang", 0);
                Console.WriteLine(tempurl, language); // for debugging
                if (language == null || language.Value.Contains("en") || eng == true)
                {
                    Insert(tempurl, doc.body.innerText); // insert into database
                    counter++;
                }

Я также хочу игнорировать все веб-сайты, которые написаны с помощью сценария, как это: https://www.instagram.com/wikimediafoundation/ см. Страницу источника: view-source: https://www.instagram.com/wikimediafoundation/ но я не знаю, как это сделать

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...