Извлечение доменного имени из URL в C # - PullRequest
5 голосов
/ 08 ноября 2010

На этот вопрос есть ответ на других языках / платформах, но я не смог найти надежного решения в C#.Здесь я ищу часть URL, которую мы используем в WHOIS, поэтому меня не интересуют субдомены, порт, схема и т. Д.владелец whois один и тот же, поэтому sub1.xyz.com и sub2.xyz.com принадлежат тому, у кого есть xyz.com, который мне нужно извлечь из URL.

Ответы [ 4 ]

6 голосов
/ 13 февраля 2011

Мне нужно было то же самое, поэтому я написал класс, который вы можете скопировать и вставить в свое решение.Он использует жестко закодированный массив строк из tld.http://pastebin.com/raw.php?i=VY3DCNhp

Console.WriteLine(GetDomain.GetDomainFromUrl("http://www.beta.microsoft.com/path/page.htm"));

выходы microsoft.com

и

Console.WriteLine(GetDomain.GetDomainFromUrl("http://www.beta.microsoft.co.uk/path/page.htm"));

выходы microsoft.co.uk

3 голосов
/ 08 ноября 2010

Как заметил @Pete, это немного сложно, но я попробую.

Обратите внимание, что это приложение должно содержать полный список известных TLD. Их можно получить из http://publicsuffix.org/. Слева, извлекая список с этого сайта в качестве упражнения для читателя.

class Program
{
    static void Main(string[] args)
    {
        var testCases = new[]
        {
            "www.domain.com.ac",
            "www.domain.ac",
            "domain.com.ac",
            "domain.ac",
            "localdomain",
            "localdomain.local"
        };

        foreach (string testCase in testCases)
        {
            Console.WriteLine("{0} => {1}", testCase, UriHelper.GetDomainFromUri(new Uri("http://" + testCase + "/")));
        }

        /* Produces the following results:

            www.domain.com.ac => domain.com.ac
            www.domain.ac => domain.ac
            domain.com.ac => domain.com.ac
            domain.ac => domain.ac
            localdomain => localdomain
            localdomain.local => localdomain.local
         */
    }
}

public static class UriHelper
{
    private static HashSet<string> _tlds;

    static UriHelper()
    {
        _tlds = new HashSet<string>
        {
            "com.ac",
            "edu.ac",
            "gov.ac",
            "net.ac",
            "mil.ac",
            "org.ac",
            "ac"

            // Complete this list from http://publicsuffix.org/.
        };
    }

    public static string GetDomainFromUri(Uri uri)
    {
        return GetDomainFromHostName(uri.Host);
    }

    public static string GetDomainFromHostName(string hostName)
    {
        string[] hostNameParts = hostName.Split('.');

        if (hostNameParts.Length == 1)
            return hostNameParts[0];

        int matchingParts = FindMatchingParts(hostNameParts, 1);

        return GetPartOfHostName(hostNameParts, hostNameParts.Length - matchingParts);
    }

    private static int FindMatchingParts(string[] hostNameParts, int offset)
    {
        if (offset == hostNameParts.Length)
            return hostNameParts.Length;

        string domain = GetPartOfHostName(hostNameParts, offset);

        if (_tlds.Contains(domain.ToLowerInvariant()))
            return (hostNameParts.Length - offset) + 1;

        return FindMatchingParts(hostNameParts, offset + 1);
    }

    private static string GetPartOfHostName(string[] hostNameParts, int offset)
    {
        var sb = new StringBuilder();

        for (int i = offset; i < hostNameParts.Length; i++)
        {
            if (sb.Length > 0)
                sb.Append('.');

            sb.Append(hostNameParts[i]);
        }

        string domain = sb.ToString();
        return domain;
    }
}
1 голос
/ 08 ноября 2010

Самое близкое, что вы можете получить, это свойство System.Uri.Host , которое извлекает часть sub1.xyz.com.К сожалению, трудно понять, что именно является частью верхнего уровня хоста (например, sub1.foo.co.uk против sub1.xyz.com)

0 голосов
/ 09 ноября 2010

если вам нужно доменное имя, вы можете использовать URi.hostadress в .net

, если вам нужен URL из контента, то вам нужно проанализировать их с помощью регулярных выражений.

...