Question

Я много использовал HashSet и Dictionary в C # и нашел их очень быстро ...

Я пытался использовать std :: map и std :: hash_map и считаю, что их сравнение очень медленное. Похоже ли это на ожидаемое поведение? Есть ли что-то, что я могу делать неправильно при использовании std :: hash_map?

Или есть ли лучший хэш-контейнер C ++?

Я хеширую int32, обычно их около 100 000.

Обновление: я создал репродукцию в C # и C ++. Он запускает два испытания, они занимают 19 мс и 13 мс в C # и около 11 000 мс в C ++. Должно быть что-то действительно не так с моим кодом C ++:)

(оба были запущены как сборки Release, оба являются консольными приложениями)

C # Вывод:

Found 511 values in the intersection, in 19 ms
Found 508 values in the intersection, in 13 ms

C ++ Вывод:

Found 308 values in the intersection, in 11764.7ms
Found 316 values in the intersection, in 11742.8ms

Вывод C ++ (с использованием stdext :: hash_map вместо std :: map)

Found 300 values in the intersection, in 383.552ms
Found 306 values in the intersection, in 2277.02ms

Вывод C ++ (с использованием stdext :: hash_map, выпуск x64 build)

Found 292 values in the intersection, in 1037.67ms
Found 302 values in the intersection, in 3663.71ms

Примечания:

Set2 заполняется не совсем так, как я хотел в C ++, я ожидал, что он будет иметь 50% пересечение с Set1 (как это происходит в C #), но мне пришлось по некоторым причинам умножить мое случайное число на 10, чтобы заставить их частично не пересекаться

C #:

    static void Main(string[] args)
    {
        int start = DateTime.Now.Millisecond;
        int intersectionSize = runIntersectionTest();
        int duration = DateTime.Now.Millisecond - start;

        Console.WriteLine(String.Format("Found {0} values in the intersection, in {1} ms", intersectionSize, duration));

        start = DateTime.Now.Millisecond;
        intersectionSize = runIntersectionTest();
        duration = DateTime.Now.Millisecond - start;

        Console.WriteLine(String.Format("Found {0} values in the intersection, in {1} ms", intersectionSize, duration));

        Console.ReadKey();
    }

    static int runIntersectionTest()
    {
        Random random = new Random(DateTime.Now.Millisecond);

        Dictionary<int,int> theMap = new Dictionary<int,int>();

        List<int> set1 = new List<int>();
        List<int> set2 = new List<int>();

        // Create 100,000 values for set1
        for ( int i = 0; i < 100000; i++ )
        {
            int value = 1000000000 + i;
            set1.Add(value);
        }

        // Create 1,000 values for set2
        for ( int i = 0; i < 1000; i++ )
        {
            int value = 1000000000 + (random.Next() % 200000 + 1);
            set2.Add(value);
        }

        // Now intersect the two sets by populating the map
        foreach( int value in set1 )
        {
            theMap[value] = 1;
        }

        int intersectionSize = 0;

        foreach ( int value in set2 )
        {
            int count;
            if ( theMap.TryGetValue(value, out count ) )
            {
                intersectionSize++;
                theMap[value] = 2;
            }
        }

        return intersectionSize;
    }

C ++:

int runIntersectionTest()
{
    std::map<int,int> theMap;

    vector<int> set1;
    vector<int> set2;

    // Create 100,000 values for set1
    for ( int i = 0; i < 100000; i++ )
    {
        int value = 1000000000 + i;
        set1.push_back(value);
    }

    // Create 1,000 values for set2
    for ( int i = 0; i < 1000; i++ )
    {
        int random = rand() % 200000 + 1;
        random *= 10;

        int value = 1000000000 + random;
        set2.push_back(value);
    }

    // Now intersect the two sets by populating the map
    for ( vector<int>::iterator iterator = set1.begin(); iterator != set1.end(); iterator++ )
    {
        int value = *iterator;

        theMap[value] = 1;
    }

    int intersectionSize = 0;

    for ( vector<int>::iterator iterator = set2.begin(); iterator != set2.end(); iterator++ )
    {
        int value = *iterator;

        map<int,int>::iterator foundValue = theMap.find(value);

        if ( foundValue != theMap.end() )
        {
            theMap[value] = 2;

            intersectionSize++;
        }
    }

    return intersectionSize;

}

int _tmain(int argc, _TCHAR* argv[])
{
    srand ( time(NULL) );

    Timer timer;
    int intersectionSize = runIntersectionTest();
    timer.Stop();

    cout << "Found " << intersectionSize << " values in the intersection, in " << timer.GetMilliseconds() << "ms" << endl;

    timer.Reset();
    intersectionSize = runIntersectionTest();
    timer.Stop();

    cout << "Found " << intersectionSize << " values in the intersection, in " << timer.GetMilliseconds() << "ms" << endl;

    getchar();

    return 0;
}

Todd Gardner · Answer 1 · 29 июня 2009

Hash_map и hash_set нестандартны, unordered_map и unordered_set , скорее всего, скоро станут стандартными версиями. Не имея репродуктора, я не думаю, что это далеко продвинется. Под капотом у них одинаковые структуры данных, поэтому они должны иметь одинаковую производительность.

Я скомпилировал предоставленный пример в MS Visual Studio 2008 v9.0.30729.1, как Visual C ++ -> Win32 -> Консольное приложение (хотя я катал свой собственный класс Timer, потому что я не был уверен, что вы используете). При отладке я получал времена 1000 мс, но компиляция при выпуске была 50 мс.

#include <vector>
#include <iostream>
#include <map>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>

#include <windows.h>

typedef struct {
    LARGE_INTEGER start;
    LARGE_INTEGER stop;
} stopWatch;

class CStopWatch {

private:
    stopWatch timer;
    LARGE_INTEGER frequency;
    double LIToSecs( LARGE_INTEGER & L);
public:
    CStopWatch();
    void startTimer( );
    void stopTimer( );
    double getElapsedTime();
};

double CStopWatch::LIToSecs( LARGE_INTEGER & L) {
    return ((double)L.QuadPart /(double)frequency.QuadPart) ;
}

CStopWatch::CStopWatch(){
    timer.start.QuadPart=0;
    timer.stop.QuadPart=0;
    QueryPerformanceFrequency( &frequency ) ;
}

void CStopWatch::startTimer( ) {
    QueryPerformanceCounter(&timer.start) ;
}

void CStopWatch::stopTimer( ) {
    QueryPerformanceCounter(&timer.stop) ;
}

double CStopWatch::getElapsedTime() {
    LARGE_INTEGER time;
    time.QuadPart = timer.stop.QuadPart - timer.start.QuadPart;
    return LIToSecs( time) ;
}

using namespace std;
int runIntersectionTest()
{
    std::map<int,int> theMap;

    vector<int> set1;
    vector<int> set2;

    // Create 100,000 values for set1
    for ( int i = 0; i < 100000; i++ )
    {
        int value = 1000000000 + i;
        set1.push_back(value);
    }

    // Create 1,000 values for set2
    for ( int i = 0; i < 1000; i++ )
    {
        int random = rand() % 200000 + 1;
        random *= 10;

        int value = 1000000000 + random;
        set2.push_back(value);
    }

    // Now intersect the two sets by populating the map
    for ( vector<int>::iterator iterator = set1.begin(); iterator != set1.end(); iterator++ )
    {
        int value = *iterator;

        theMap[value] = 1;
    }

    int intersectionSize = 0;

    for ( vector<int>::iterator iterator = set2.begin(); iterator != set2.end(); iterator++ )
    {
        int value = *iterator;

        map<int,int>::iterator foundValue = theMap.find(value);

        if ( foundValue != theMap.end() )
        {
                theMap[value] = 2;

                intersectionSize++;
        }
    }

    return intersectionSize;

}

int main(int argc, char* argv[])
{
    srand ( time(NULL) );
    int tests = 2;
    while(tests--){
      CStopWatch timer;
      timer.startTimer();
      int intersectionSize = runIntersectionTest();
      timer.stopTimer();

      cout << "Found " << intersectionSize << " values in the intersection, in " << timer.getElapsedTime() << "s\r\n";
    }

    getchar();

    return 0;
}

(я бы попробовал использовать unordered_map, но в моей версии его нет). Я подозреваю, что в вашей настройке для C ++ есть какая-то проблема.

Alex Black · Answer 2 · 30 июня 2009

Нам удалось докопаться до этого, см .:

Почему мой код STL работает так медленно, когда у меня подключен отладчик / IDE?

Что происходит, когда вы присоединяете отладчик, используется другая (DEBUG) куча памяти - вы можете отключить ее, если хотите.

ntg · Answer 3 · 07 февраля 2013

То, что вы действительно сравниваете, это

C # набор хэшей, который равен O (1), что означает почти постоянное значение и не зависит от размера ввода,

по сравнению с вектором C ++ .... значение (размер входных данных) умноженное на константу ...

Это имеет мало практического смысла.

Вы должны попытаться использовать эквивалент hashset в C ++, который есть (после tr1 в 2007 году, я думаю) std :: tr1 :: unordered_set <...> (и std :: tr1 :: unordered_set <...>)

ссылка на Википедию на TR1

Также обратите внимание, что согласно этой странице Visual Studio имеет собственную субоптимальную реализацию stl tr1. (не имею личного опыта, нашел его здесь )

Eric · Answer 4 · 29 июня 2009

Вы используете std :: map в своем коде C ++, который имеет время вставки и поиска O (log (n)). Попробуйте провести тестирование с помощью hash_map, чтобы получить лучшее сравнение.

Nick · Answer 5 · 29 июня 2009

Я никогда не использовал его, но Google Sparcehash может подойти

David Seiler · Answer 6 · 29 июня 2009

Звучит не так, как ожидается, но вам нужно собрать больше деталей, прежде чем мы сможем помочь. Чью реализацию hash_map вы используете? Вы указали на него профилировщик, и если да, что он вам сказал?

В общем, если реализация хеш-таблицы работает плохо без видимой причины, обычно это происходит из-за того, что хэш-функция, используемая таблицей, работает плохо для вашего конкретного ввода. Это может быть вашей проблемой - в hash_map C ++ используется хеш-функция, которая отображает ваши ключи в небольшой диапазон блоков, а в C # HashSet нет - или это может быть что-то совершенно иное.

std :: map обычно реализован в виде дерева и поэтому будет иметь разные характеристики производительности. Опять же, детали реализации и входные данные имеют значение.

Быстрый C ++ контейнер, такой как C # HashSet <T>и Dictionary?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Быстрый C ++ контейнер, такой как C # HashSet <T>и Dictionary?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы