Увеличить стоимость разыменования shared_ptr - PullRequest
13 голосов
/ 03 ноября 2011

Я пытаюсь сравнить производительность между необработанными указателями, увеличить shared_ptr и повысить слабый_птр. Что касается разыменования, я ожидал, что shared_ptr и raw_ptr будут равны, но результаты показывают, что shared_ptr примерно в два раза медленнее. Для теста я создаю массив либо с указателями, либо с общими указателями на целые, а затем разыменовываюсь в цикле следующим образом:

int result;
for(int i = 0; i != 100; ++i)
{
  for(int i = 0; i != SIZE; ++i)
    result += *array[i];
}

Полный код теста можно найти здесь: https://github.com/coolfluid/coolfluid3/blob/master/test/common/utest-ptr-benchmark.cpp

Сроки тестирования для оптимизированной сборки без утверждений можно найти здесь: http://coolfluidsrv.vki.ac.be/cdash/testDetails.php?test=145592&build=7777

Значения, представляющие интерес: «DerefShared time» и «DerefRaw time»

Я думаю, что тест может быть как-то ошибочным, но я не смог выяснить, откуда взялась разница. Профилирование показывает, что оператор * из shared_ptr встроен, кажется, что это занимает больше времени. Я дважды проверил, что утверждение повышения отключено.

Буду очень признателен, если кто-нибудь сможет объяснить, откуда может возникнуть разница.

Дополнительный автономный тест: https://gist.github.com/1335014

1 Ответ

10 голосов
/ 03 ноября 2011

Как сказал Алан Стоукс в своем комментарии, это связано с эффектами кэша.Общие указатели включают счетчик ссылок, что означает, что они физически больше в памяти, чем необработанный указатель.При хранении в непрерывном массиве вы получаете меньше указателей на строку кэша, что означает, что цикл должен выходить в основную память чаще, чем для необработанного указателя.

Вы можете наблюдать это поведение вваш необработанный тест указателя, выделяющий SIZE*2 дюйма, но также изменяющий цикл де-ссылки на шаг i+=2 вместо ++i.Это дало примерно те же результаты в моих тестах.Мой код для необработанного теста приведен ниже.

#include <iostream>
#include <boost/timer.hpp>

#define SIZE 1000000

typedef int* PtrT;

int do_deref(PtrT* array)
{
    int result = 0;
    for(int i = 0; i != 1000; ++i)
    {
        for(int i = 0; i != SIZE*2; i+=2)
            result += *array[i];
    }

    return result;
}

int main(void)
{
    PtrT* array = new PtrT[SIZE*2];
    for(int i = 0; i != SIZE*2; ++i)
        array[i] = new int(i);
    boost::timer timer;
    int result = do_deref(array);
    std::cout << "deref took " << timer.elapsed() << "s" << std::endl;
    return result;
}

Кстати, использование boost::make_shared<int>(i) вместо PtrT(new int(I)) выделяет счетчик ссылок и объект вместе в памяти, а не в отдельных местах.В моих тестах это улучшило производительность разыменования общего указателя примерно на 10-20%.Код для этого ниже:

#include <iostream>
#include <boost/timer.hpp>
#include <boost/shared_ptr.hpp>
#include <boost/make_shared.hpp>
#define SIZE 1000000

typedef boost::shared_ptr<int> PtrT;

int do_deref(PtrT* array)
{
    int result = 0;
    for(int j = 0; j != 1000; ++j)
    {
        for(int i = 0; i != SIZE; ++i)
            result += *array[i];
    }

    return result;
}

int main(void)
{
    PtrT* array = new PtrT[SIZE];
    for(int i = 0; i != SIZE; ++i)
        array[i] = boost::make_shared<int>(i);
    boost::timer timer;
    int result = do_deref(array);
    std::cout << "deref took " << timer.elapsed() << "s" << std::endl;
    return result;
}

Мои результаты (x86-64 Unbuntu 11 VM):

Original Raw: 6.93
New Raw: 12.9
Original Shared: 12.7
New Shared: 10.59
...