Question

У меня есть вектор, содержащий несколько несмежных дубликатов.

В качестве простого примера рассмотрим:

2 1 6 1 4 6 2 1 1

Я пытаюсь сделать это vector уникальным, удаляя несмежные дубликаты и поддерживая порядок элементов.

Результат будет:

2 1 6 4

Решения, которые я попробовал:

Вставка в std :: set, но проблема этого подхода в том, что он нарушит порядок элементов.
Используйте комбинацию std :: sort и std :: unique. Но опять та же проблема порядка.

Удаление дубликатов вручную:

    Define a temporary vector TempVector.
    for (each element in a vector)
    {
        if (the element does not exists in TempVector)
        {
            add to TempVector;
        }
    }
    swap orginial vector with TempVector.

Мой вопрос:

Есть ли алгоритм STL, который может удалять несмежные дубликаты из вектора? в чем его сложность?

fa. · Answer 1 · 21 сентября 2009

Я думаю, вы бы сделали это так:

Я бы использовал два итератора для вектора:

Первый из них читает данные и вставляет их во временный набор.

Когда прочитанных данных не было в наборе, вы копируете их из первого итератора во второй и увеличиваете их.

В конце вы сохраняете только данные до второго итератора.

Сложность O (n .log (n)), поскольку поиск дублированных элементов использует набор, а не вектор.

#include <vector>
#include <set>
#include <iostream>

int main(int argc, char* argv[])
{
    std::vector< int > k ;

    k.push_back( 2 );
    k.push_back( 1 );
    k.push_back( 6 );
    k.push_back( 1 );
    k.push_back( 4 );
    k.push_back( 6 );
    k.push_back( 2 );
    k.push_back( 1 );
    k.push_back( 1 );

{
    std::vector< int >::iterator r , w ;

    std::set< int > tmpset ;

    for( r = k.begin() , w = k.begin() ; r != k.end() ; ++r )
    {
        if( tmpset.insert( *r ).second )
        {
            *w++ = *r ;
        }
    }

    k.erase( w , k.end() );
}


    {
        std::vector< int >::iterator r ;

        for( r = k.begin() ; r != k.end() ; ++r )
        {
            std::cout << *r << std::endl ;
        }
    }
}

CB Bailey · Answer 2 · 23 сентября 2009

Без использования временного set это можно сделать с (возможно) некоторой потерей производительности:

template<class Iterator>
Iterator Unique(Iterator first, Iterator last)
{
    while (first != last)
    {
        Iterator next(first);
        last = std::remove(++next, last, *first);
        first = next;
    }

    return last;
}

используется как в:

vec.erase( Unique( vec.begin(), vec.end() ), vec.end() );

Для небольших наборов данных простота реализации и отсутствие необходимого дополнительного выделения могут компенсировать теоретически более высокую сложность использования дополнительных set. Тем не менее, измерения с репрезентативным входом - единственный способ убедиться в этом.

Andreas Spindler · Answer 3 · 09 мая 2012

Поскольку вопрос был "есть ли алгоритм STL ...? Какова его сложность?" имеет смысл реализовать такую функцию как std::unique:

template <class FwdIterator>
inline FwdIterator stable_unique(FwdIterator first, FwdIterator last)
{
    FwdIterator result = first;
    std::unordered_set<typename FwdIterator::value_type> seen;

    for (; first != last; ++first)
        if (seen.insert(*first).second)
            *result++ = *first;
    return result;
}

Так вот как std::unique реализован плюс дополнительный набор. unordered_set должен быть быстрее, чем обычный set. Все элементы удаляются, которые сравниваются равными элементу, расположенному непосредственно перед ними (первый элемент сохраняется, потому что мы не можем объединиться ни к чему). Итератор возвращал точки на новый конец в диапазоне [first,last).

РЕДАКТИРОВАТЬ: последнее предложение означает, что сам контейнер НЕ изменен на unique. Это может сбивать с толку. Следующий пример фактически уменьшает контейнер до унифицированного набора.

1: std::vector<int> v(3, 5);
2: v.resize(std::distance(v.begin(), unique(v.begin(), v.end())));
3: assert(v.size() == 1);

Строка 1 создает вектор { 5, 5, 5 }. В строке 2 вызов unique возвращает итератор для второго элемента, который является первым элементом, который не является уникальным. Следовательно, distance возвращает 1, а resize сокращает вектор.

Richard Corden · Answer 4 · 21 сентября 2009

Вы можете удалить некоторые циклы в ответе fa's , используя remove_copy_if:

class NotSeen : public std::unary_function <int, bool>
{
public:
  NotSeen (std::set<int> & seen) : m_seen (seen) { }

  bool operator ()(int i) const  {
    return (m_seen.insert (i).second);
  }

private:
  std::set<int> & m_seen;
};

void removeDups (std::vector<int> const & iv, std::vector<int> & ov) {
  std::set<int> seen;
  std::remove_copy_if (iv.begin ()
      , iv.end ()
      , std::back_inserter (ov)
      , NotSeen (seen));
}

Это не влияет на сложность алгоритма (т.е. как написано, это также O (n log n)). Вы можете улучшить это, используя unordered_set, или, если диапазон ваших значений достаточно мал, вы можете просто использовать массив или битовый массив.

Heiko Schäfer · Answer 5 · 24 сентября 2013

На основании ответа @fa. Он также может быть переписан с использованием алгоритма STL std::stable_partition:

struct dupChecker_ {
    inline dupChecker_() : tmpSet() {}
    inline bool operator()(int i) {
        return tmpSet.insert(i).second;
    }
private:
    std::set<int> tmpSet;
};

k.erase(std::stable_partition(k.begin(), k.end(), dupChecker_()), k.end());

Таким образом, он более компактен, и нам не нужно заботиться об итераторах.

Кажется, даже не вводить слишком много производительности. Я использую его в своем проекте, который должен обрабатывать довольно большие векторы сложных типов, и это не имеет никакого значения.

Еще одна приятная особенность заключается в том, что можно настроить уникальность с помощью std::set<int, myCmp_> tmpSet;. Например, в моем проекте игнорировать определенные ошибки округления.

sbi · Answer 6 · 21 сентября 2009

Нет алгоритма STL, делающего то, что вы хотите, сохраняя первоначальный порядок последовательности.

Вы можете создать std::set итераторов или индексов в векторе с предикатом сравнения, который использует ссылочные данные, а не итераторы / индексы для сортировки. Затем вы удаляете все из вектора, на который нет ссылок в наборе. (Конечно, вы могли бы также использовать другие std::vector итераторов / индексов, std::sort и std::unique и использовать это как ссылку на то, что сохранить.)

vschoech · Answer 7 · 12 февраля 2010

Есть хорошая статья Джона Торджо, которая систематически рассматривает этот вопрос. Результат, который он дает, кажется более общим и более эффективным, чем любое из предложенных здесь решений:

http://www.builderau.com.au/program/java/soa/C-Removing-duplicates-from-a-range/0,339024620,320271583,00.htm

https://web.archive.org/web/1/http://articles.techrepublic%2ecom%2ecom/5100-10878_11-1052159.html

К сожалению, полный код решения Джона, похоже, больше не доступен, и Джон не ответил на майское письмо. Поэтому я написал свой собственный код, который основан на тех же принципах, что и он, но намеренно отличается некоторыми деталями. Не стесняйтесь связаться со мной (vschoech think-cell com) и обсудить детали, если хотите.

Чтобы код скомпилировался для вас, я добавил кое-что из своей библиотеки, которую я регулярно использую. Кроме того, вместо простого stl я использую boost для создания более общего, более эффективного и более читабельного кода.

Веселись!

#include <vector>
#include <functional>

#include <boost/bind.hpp>
#include <boost/range.hpp>
#include <boost/iterator/counting_iterator.hpp>

/////////////////////////////////////////////////////////////////////////////////////////////
// library stuff

template< class Rng, class Func >
Func for_each( Rng& rng, Func f ) {
    return std::for_each( boost::begin(rng), boost::end(rng), f );
};

template< class Rng, class Pred >
Rng& sort( Rng& rng, Pred pred ) {
    std::sort( boost::begin( rng ), boost::end( rng ), pred );
    return rng; // to allow function chaining, similar to operator+= et al.
}

template< class T >
boost::iterator_range< boost::counting_iterator<T> > make_counting_range( T const& tBegin, T const& tEnd ) {
    return boost::iterator_range< boost::counting_iterator<T> >( tBegin, tEnd );
}

template< class Func >
class compare_less_impl {
private:
    Func m_func;
public:
    typedef bool result_type;
    compare_less_impl( Func func ) 
    :   m_func( func )
    {}
    template< class T1, class T2 > bool operator()( T1 const& tLeft, T2 const& tRight ) const {
        return m_func( tLeft ) < m_func( tRight );
    }
};

template< class Func >
compare_less_impl<Func> compare_less( Func func ) {
    return compare_less_impl<Func>( func );
}


/////////////////////////////////////////////////////////////////////////////////////////////
// stable_unique

template<class forward_iterator, class predicate_type>
forward_iterator stable_unique(forward_iterator itBegin, forward_iterator itEnd, predicate_type predLess) {
    typedef std::iterator_traits<forward_iterator>::difference_type index_type;
    struct SIteratorIndex {
        SIteratorIndex(forward_iterator itValue, index_type idx) : m_itValue(itValue), m_idx(idx) {}
        std::iterator_traits<forward_iterator>::reference Value() const {return *m_itValue;}
        index_type m_idx;
    private:
        forward_iterator m_itValue;
    };

    // {1} create array of values (represented by iterators) and indices
    std::vector<SIteratorIndex> vecitidx;
    vecitidx.reserve( std::distance(itBegin, itEnd) );
    struct FPushBackIteratorIndex {
        FPushBackIteratorIndex(std::vector<SIteratorIndex>& vecitidx) : m_vecitidx(vecitidx) {}
        void operator()(forward_iterator itValue) const {
            m_vecitidx.push_back( SIteratorIndex(itValue, m_vecitidx.size()) );
        }
    private:
        std::vector<SIteratorIndex>& m_vecitidx;
    };
    for_each( make_counting_range(itBegin, itEnd), FPushBackIteratorIndex(vecitidx) );

    // {2} sort by underlying value
    struct FStableCompareByValue {
        FStableCompareByValue(predicate_type predLess) : m_predLess(predLess) {}
        bool operator()(SIteratorIndex const& itidxA, SIteratorIndex const& itidxB) {
            return m_predLess(itidxA.Value(), itidxB.Value())
                // stable sort order, index is secondary criterion
                || !m_predLess(itidxB.Value(), itidxA.Value()) && itidxA.m_idx < itidxB.m_idx;
        }
    private:
        predicate_type m_predLess;
    };
    sort( vecitidx, FStableCompareByValue(predLess) );

    // {3} apply std::unique to the sorted vector, removing duplicate values
    vecitidx.erase(
        std::unique( vecitidx.begin(), vecitidx.end(),
            !boost::bind( predLess,
                // redundand boost::mem_fn required to compile
                boost::bind(boost::mem_fn(&SIteratorIndex::Value), _1),
                boost::bind(boost::mem_fn(&SIteratorIndex::Value), _2)
            )
        ),
        vecitidx.end()
    );

    // {4} re-sort by index to match original order
    sort( vecitidx, compare_less(boost::mem_fn(&SIteratorIndex::m_idx)) );

    // {5} keep only those values in the original range that were not removed by std::unique
    std::vector<SIteratorIndex>::iterator ititidx = vecitidx.begin();
    forward_iterator itSrc = itBegin;
    index_type idx = 0;
    for(;;) {
        if( ititidx==vecitidx.end() ) {
            // {6} return end of unique range
            return itSrc;
        }
        if( idx!=ititidx->m_idx ) {
            // original range must be modified
            break;
        }
        ++ititidx;
        ++idx;
        ++itSrc;
    }
    forward_iterator itDst = itSrc;
    do {
        ++idx;
        ++itSrc;
        // while there are still items in vecitidx, there must also be corresponding items in the original range
        if( idx==ititidx->m_idx ) {
            std::swap( *itDst, *itSrc ); // C++0x move
            ++ititidx;
            ++itDst;
        }
    } while( ititidx!=vecitidx.end() );

    // {6} return end of unique range
    return itDst;
}

template<class forward_iterator>
forward_iterator stable_unique(forward_iterator itBegin, forward_iterator itEnd) {
    return stable_unique( itBegin, itEnd, std::less< std::iterator_traits<forward_iterator>::value_type >() );
}

void stable_unique_test() {
    std::vector<int> vecn;
    vecn.push_back(1);
    vecn.push_back(17);
    vecn.push_back(-100);
    vecn.push_back(17);
    vecn.push_back(1);
    vecn.push_back(17);
    vecn.push_back(53);
    vecn.erase( stable_unique(vecn.begin(), vecn.end()), vecn.end() );
    // result: 1, 17, -100, 53
}

Max Lybbert · Answer 8 · 21 сентября 2009

Мой вопрос:

Есть ли алгоритм STL, который может удалять несмежные дубликаты из вектора? в чем его сложность?

Вы указали параметры STL: поместите элементы в std::set или позвоните std::sort, std::unique и вызовите erase() на контейнере. Ни один из них не удовлетворяет вашему требованию «удаления несмежных дубликатов и поддержания порядка элементов».

Так почему же STL не предлагает какой-то другой вариант? Ни одна стандартная библиотека не предложит все для потребностей каждого пользователя. Проектные соображения STL включают: «быть достаточно быстрым почти для всех пользователей», «быть полезным практически для всех пользователей» и «обеспечить безопасность исключений в максимально возможной степени» (и «быть достаточно маленьким для Комитета по стандартам», как библиотека Степанова изначально написано было намного больше, и Страуструп исключил что-то вроде 2/3).

Самое простое решение, которое я могу придумать, выглядело бы так:

// Note:  an STL-like method would be templatized and use iterators instead of
// hardcoding std::vector<int>
std::vector<int> stable_unique(const std::vector<int>& input)
{
    std::vector<int> result;
    result.reserve(input.size());
    for (std::vector<int>::iterator itor = input.begin();
                                    itor != input.end();
                                    ++itor)
        if (std::find(result.begin(), result.end(), *itor) == result.end())
            result.push_back(*itor);
        return result;
}

Это решение должно быть O (M * N), где M - количество уникальных элементов, а N - общее количество элементов.

winterlight · Answer 9 · 22 июня 2013

На основе ответа @ Corden, но использует лямбда-выражение и удаляет дубликаты вместо записи их в выходной вектор

    set<int> s;
    vector<int> nodups;
    remove_copy_if(v.begin(), v.end(), back_inserter(nodups), 
        [&s](int x){ 
            return !s.insert(x).second; //-> .second false means already exists
        } );

Как сделать элементы вектора уникальными? (удалить несмежные дубликаты)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сделать элементы вектора уникальными? (удалить несмежные дубликаты)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы