Question

К вашему сведению: нет повышения, да, это так, я хочу заново изобрести колесо;)

Существует ли какая-либо форма выборочного итератора (возможного) в C ++?Я хочу разделить строки следующим образом:

some:word{or other

на такую форму:

some : word { or other

Я могу сделать это с помощью двух циклов и find_first_of (":") и ("{") но это кажется (очень) неэффективным для меня.Я подумал, что, возможно, найдется способ создать / определить / написать итератор, который будет перебирать все эти значения с помощью for_each.Боюсь, что из-за этого я напишу полноценный пользовательский итеративный класс для std :: string.

Поэтому я подумал, что, возможно, это подойдет:

std::vector<size_t> list;
size_t index = mystring.find(":");
while( index != std::string::npos )
{
    list.push_back(index);
    index = mystring.find(":", list.back());
}
std::for_each(list.begin(), list.end(), addSpaces(mystring));

Этовыглядит грязно для меня, и я вполне уверен, что существует более элегантный способ сделать это.Но я не могу думать об этом.У кого-нибудь есть блестящая идея?Спасибо

PS: я не проверял опубликованный код, просто быстрое написание того, что я бы попробовал

ОБНОВЛЕНИЕ: после того, как я учел все ваши ответы, я придумал это,и это работает на мой вкус :).при этом предполагается, что последний символ является новой строкой или чем-то еще, в противном случае окончание {, } или : не будет обработано.

void tokenize( string &line )
{
    char oneBack = ' ';
    char twoBack = ' ';
    char current = ' ';
    size_t length = line.size();

    for( size_t index = 0; index<length; ++index )
    {
        twoBack = oneBack;
        oneBack = current;
        current = line.at( index );
        if( isSpecial(oneBack) )
        {
            if( !isspace(twoBack) ) // insert before
            {
                line.insert(index-1, " ");
                ++index;
                ++length;
            }
            if( !isspace(current) ) // insert after
            {
                line.insert(index, " ");
                ++index;
                ++length;
            }
        }
    }

Комментарии приветствуются как всегда:)

Martin York · Answer 1 · 15 июня 2010

Это сравнительно легко с помощью std :: istream_iterator.

Что вам нужно сделать, это определить свой собственный класс (скажем, Term).Затем определите, как читать одно «слово» (термин) из потока, используя оператор >>.

Я не знаю, какое у вас точное определение слова, поэтому я использую следующее определение:

Любая последовательная последовательность буквенно-цифровых символов - это термин

Любой отдельный непробельный символ, который также не является буквенно-цифровым, является словом.this:

#include <string>
#include <sstream>
#include <iostream>
#include <iterator>
#include <algorithm>

class Term
{
    public:

        // This cast operator is not required but makes it easy to use
        // a Term anywhere that a string can normally be used.
        operator std::string const&() const {return value;}

    private:
        // A term is just a string
        // And we friend the operator >> to make sure we can read it.
        friend std::istream& operator>>(std::istream& inStr,Term& dst);
        std::string     value;
};

Теперь все, что нам нужно сделать, это определить оператор >>, который читает слово в соответствии с правилами:

// This function could be a lot neater using some boost regular expressions.
// I just do it manually to show it can be done without boost (as requested)
std::istream& operator>>(std::istream& inStr,Term& dst)
{
   // Note the >> operator drops all proceeding white space.
   // So we get the first non white space
   char first;
   inStr >> first;

   // If the stream is in any bad state the stop processing.
   if (inStr)
   {
       if(std::isalnum(first))
       {
           // Alpha Numeric so read a sequence of characters
           dst.value = first;

           // This is ugly. And needs re-factoring.
           while((first = insStr.get(), inStr) && std::isalnum(first))
           {
               dst.value += first;
           }

           // Take into account the special case of EOF.
           // And bad stream states.
           if (!inStr)
           {
               if (!inStr.eof())
               {
                   // The last letter read was not EOF and and not part of the word
                   // So put it back for use by the next call to read from the stream.
                   inStr.putback(first);
               }
               // We know that we have a word so clear any errors to make sure it
               // is used. Let the next attempt to read a word (term) fail at the outer if.
               inStr.clear();
           }
       }
       else
       {
           // It was not alpha numeric so it is a one character word.
           dst.value   = first;
       }
  }
  return inStr;
}

Так что теперь мы можем использовать его в стандартных алгоритмахпросто используя istream_iterator

int main()
{
    std::string         data    = "some:word{or other";
    std::stringstream   dataStream(data);


    std::copy(  // Read the stream one Term at a time.
                std::istream_iterator<Term>(dataStream),
                std::istream_iterator<Term>(),

                // Note the ostream_iterator is using a std::string
                // This works because a Term can be converted into a string.
                std::ostream_iterator<std::string>(std::cout, "\n")
             );

}

Вывод:

> ./a.exe
some
:
word
{
or
other

Matthieu M. · Answer 2 · 15 июня 2010

std::string const str = "some:word{or other";

std::string result;
result.reserve(str.size());
for (std::string::const_iterator it = str.begin(), end = str.end();
     it != end; ++it)
{
  if (isalnum(*it))
  {
    result.push_back(*it);
  }
  else
  {
    result.push_back(' '); result.push_back(*it); result.push_back(' ');
  }
}

Вставьте версию для ускорения

std::string str = "some:word{or other";

for (std::string::iterator it = str.begin(), end = str.end(); it != end; ++it)
{
  if (!isalnum(*it))
  {
    it = str.insert(it, ' ') + 2;
    it = str.insert(it, ' ');
    end = str.end();
  }
}

Обратите внимание, что std::string::insert вставляет ДО пройденного итератора и возвращает итератор вновь вставленному символу. Назначение важно, поскольку буфер мог быть перераспределен в другом месте памяти (итераторы недействительны при вставке). Также обратите внимание, что вы не можете оставить end для всего цикла, каждый раз, когда вы вставляете его, вам нужно пересчитать его.

Dummy00001 · Answer 3 · 15 июня 2010

существует более элегантный способ сделать это.

Я не знаю, как BOOST реализует это, но традиционным способом является ввод входной строки за символом в FSM , который определяет, где начинаются и заканчиваются токены (слова, символы).

Я могу сделать это с двумя циклами и find_first_of (":") и ("{")

Достаточно одного цикла с std :: find_first_of ().

Хотя я все еще большой поклонник автоматов для таких задач разбора.

P.S. Аналогичный вопрос

John Dibling · Answer 4 · 15 июня 2010

Вы хотите токенизировать входную строку, ala strtok?

Если это так, вот функция токенизации, которую вы можете использовать. Он принимает входные данные string и строку разделителей (каждый символ в строке является возможным разделителем) и возвращает вектор token s. Каждый token является кортежем со строкой с разделителями, и в этом случае используется разделитель:

#include <cstdlib>
#include <vector>
#include <string>
#include <functional>
#include <iostream>
#include <algorithm>
using namespace std;

//  FUNCTION :      stringtok(char const* Raw, string sToks)
//  PARAMATERS :    Raw     Pointer to NULL-Terminated string containing a string to be tokenized.
//                  sToks   string of individual token characters -- each character in the string is a token
//  DESCRIPTION :   Tokenizes a string, much in the same was as strtok does.  The input string is not modified.  The
//                  function is called once to tokenize a string, and all the tokens are retuned at once.
//  RETURNS :       Returns a vector of strings.  Each element in the vector is one token.  The token character is
//                  not included in the string.  The number of elements in the vector is N+1, where N is the number
//                  of times the Token character is found in the string.  If one token is an empty string (as with the
//                  string "string1##string3", where the token character is '#'), then that element in the vector
//                  is an empty string.
//  NOTES :         
//
typedef pair<char,string> token;    // first = delimiter, second = data
inline vector<token> tokenize(const string& str, const string& delims, bool bCaseSensitive=false)   // tokenizes a string, returns a vector of tokens
{
    bCaseSensitive;

    // prologue
    vector<token> vRet;
    // tokenize input string
    for( string::const_iterator itA = str.begin(), it=itA; it != str.end(); it = find_first_of(++it,str.end(),delims.begin(),delims.end()) )
    {
        // prologue
        // find end of token
        string::const_iterator itEnd = find_first_of(it+1,str.end(),delims.begin(),delims.end());
        // add string to output
        if( it == itA ) vRet.push_back(make_pair(0,string(it,itEnd)));
        else            vRet.push_back(make_pair(*it,string(it+1,itEnd)));
        // epilogue
    }
    // epilogue
    return vRet;
}

using namespace std;

int main()
{
    string input = "some:word{or other";
    typedef vector<token> tokens;
    tokens toks = tokenize(input.c_str(), " :{");
    cout << "Input: '" << input << " # Tokens: " << toks.size() << "'\n";
    for( tokens::iterator it = toks.begin(); it != toks.end(); ++it )
    {
        cout << "  Token : '" << it->second << "', Delimiter: '" << it->first << "'\n";
    }
    return 0;

}

Gianni · Answer 5 · 15 июня 2010

Как насчет чего-то вроде:

std::string::const_iterator it, end = mystring.end();
for(it = mystring.begin(); it != end; ++it) {
  if ( !isalnum( *it ))
    list.push_back(it);
}

Таким образом, вы будете перебирать строку только один раз, и isalnum из ctype.h, кажется, делает то, что вы хотите.Конечно, приведенный выше код является очень упрощенным и неполным и предлагает только решение.

Выборочный итератор

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Выборочный итератор

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы