Экранирование строки C ++ - PullRequest
18 голосов
/ 10 марта 2010

Какой самый простой способ преобразовать std :: string в C ++ в другую std :: string, в которой экранированы все непечатаемые символы?

Например, для строки из двух символов [0x61,0x01] результирующей строкой может быть «a \ x01» или «a% 01».

Ответы [ 5 ]

11 голосов
/ 10 марта 2010

Взгляните на библиотеку Boost's String Algorithm . Вы можете использовать его is_print классификатор (вместе с его оператором! Overload) для выбора непечатаемых символов, а его функции find_format () могут заменить их любым форматированием, который вы пожелаете.

#include <iostream>
#include <boost/format.hpp>
#include <boost/algorithm/string.hpp>

struct character_escaper
{
    template<typename FindResultT>
    std::string operator()(const FindResultT& Match) const
    {
        std::string s;
        for (typename FindResultT::const_iterator i = Match.begin();
             i != Match.end();
             i++) {
            s += str(boost::format("\\x%02x") % static_cast<int>(*i));
        }
        return s;
    }
};

int main (int argc, char **argv)
{
    std::string s("a\x01");
    boost::find_format_all(s, boost::token_finder(!boost::is_print()), character_escaper());
    std::cout << s << std::endl;
    return 0;
}
9 голосов
/ 10 марта 2010

Предполагается, что набор символов выполнения является расширенным набором ASCII, а CHAR_BIT равен 8. Для OutIter передается back_inserter (например, в вектор или другая строка), ostream_iterator или любой другой подходящий выходной итератор.

template<class OutIter>
OutIter write_escaped(std::string const& s, OutIter out) {
  *out++ = '"';
  for (std::string::const_iterator i = s.begin(), end = s.end(); i != end; ++i) {
    unsigned char c = *i;
    if (' ' <= c and c <= '~' and c != '\\' and c != '"') {
      *out++ = c;
    }
    else {
      *out++ = '\\';
      switch(c) {
      case '"':  *out++ = '"';  break;
      case '\\': *out++ = '\\'; break;
      case '\t': *out++ = 't';  break;
      case '\r': *out++ = 'r';  break;
      case '\n': *out++ = 'n';  break;
      default:
        char const* const hexdig = "0123456789ABCDEF";
        *out++ = 'x';
        *out++ = hexdig[c >> 4];
        *out++ = hexdig[c & 0xF];
      }
    }
  }
  *out++ = '"';
  return out;
}
5 голосов
/ 08 июля 2017

Предполагая, что «самый простой путь» означает короткий и все же легко понятный, не зависящий от каких-либо других ресурсов (например, библиотек), я бы пошел по этому пути:

#include <cctype>
#include <sstream>

// s is our escaped output string
std::string s = "";
// loop through all characters
for(char c : your_string)
{
    // check if a given character is printable
    // the cast is necessary to avoid undefined behaviour
    if(isprint((unsigned char)c))
        s += c;
    else
    {
        std::stringstream stream;
        // if the character is not printable
        // we'll convert it to a hex string using a stringstream
        // note that since char is signed we have to cast it to unsigned first
        stream << std::hex << (unsigned int)(unsigned char)(c);
        std::string code = stream.str();
        s += std::string("\\x")+(code.size()<2?"0":"")+code;
        // alternatively for URL encodings:
        //s += std::string("%")+(code.size()<2?"0":"")+code;
    }
}
3 голосов
/ 10 марта 2010

Непечатный символ одного человека - многобайтовый символ другого. Поэтому вам придется определить кодировку, прежде чем вы сможете определить, какие байты соответствуют каким символам, а какие непечатными.

2 голосов
/ 11 марта 2010
...